电信话费口令全国 + 部分省
电信 APP - 我 - 我的奖券 - 口令兑换 0.66-100 话费
全国口令:辞旧迎新 企微送福利
重庆用户:年终享好礼
山东电信话费口令:冬日送好礼
江西电信话费口令:收官顺 冬至福至 新岁启
河北电信话费口令:12 月好运
江苏电信话费口令:迎接 2026
陕西电信话费口令:温暖过冬
黑龙江电信话费口令:雪舞龙江
四川电信话费口令:马上有钱
天津电信话费口令:万事如翼
扫码访问小程序中的本文
xiaohack博客专注前沿科技动态与实用技术干货分享,涵盖 AI 代理、大模型应用、编程工具、文档解析、SEO 实战、自动化部署等内容,提供开源项目教程、科技资讯日报、工具使用指南,助力开发者、AI 爱好者获取前沿技术与实战经验。
电信 APP - 我 - 我的奖券 - 口令兑换 0.66-100 话费
全国口令:辞旧迎新 企微送福利
重庆用户:年终享好礼
山东电信话费口令:冬日送好礼
江西电信话费口令:收官顺 冬至福至 新岁启
河北电信话费口令:12 月好运
江苏电信话费口令:迎接 2026
陕西电信话费口令:温暖过冬
黑龙江电信话费口令:雪舞龙江
四川电信话费口令:马上有钱
天津电信话费口令:万事如翼
扫码访问小程序中的本文
首先感谢这两个佬提供的基础
分别是转发服务:https://linux.do/t/topic/1291730
和提示词增强:https://linux.do/t/topic/1280612
下面是具体教程:
1. 请前往 https://acemcp.heroman.wtf/ 获取你的 token(如果你是使用官方的 token 的话则省略这一步,因为我的 augment 账号都被杀完了,所以没办法做尝试官方配置这个方法是否有效)
2. 克隆我的项目git clone https://github.com/lili-luo/aicoding-cookbook
3. 将 augment-mcp-config 这个文件夹拖拽给 claude code,同时告诉它 token(建议选择模型 claude opus 4-5,比较聪明,万一电脑环境不同可以自我纠错,而且比 codex 快很多),然后让它按照这个文件夹的教程给 claude code 和 codex 配置好就行
4. 等待一会儿 ai 会自动把活干好,实测 Windows 环境和 wsl2 环境完全可行。实测一套流程下来只需要几分钟,非常方便。
Tip起因是捡了个便宜的域名,然后 augment code 上次变更收费方式转换的积分快到期了,还有 20 多万,所以让 AI 撸了一个小工具网站,有需要的佬友可以来试试
| 功能 | 状态 | 说明 |
|---|---|---|
| DDL → GORM | 已实现 | MySQL/PostgreSQL DDL 转 Go GORM 模型代码 |
| DDL → Prisma | 已实现 | DDL 转 Prisma Schema |
| DDL → SQLAlchemy | 已实现 | DDL 转 Python SQLAlchemy 模型 |
| DDL → TypeORM | 已实现 | DDL 转 TypeScript TypeORM 实体 |
| DDL → JPA/Hibernate | 已实现 | DDL 转 Java JPA 实体类 |
| DDL → MyBatis-Plus | 已实现 | DDL 转 MyBatis-Plus Entity/Mapper/XML |
| 功能 | 状态 | 说明 |
|---|---|---|
| SQL 格式化 | 已实现 | 多方言格式化(MySQL/PostgreSQL/SQLite/SQL Server/ANSI) |
| Schema Diff | 已实现 | 两个 DDL 文本比较,生成差异与迁移 SQL |
| 功能 | 状态 | 说明 |
|---|---|---|
| ER 图生成 | 已实现 | 从 DDL 解析生成 ER 关系图,支持导出 SVG/PNG |
| 功能 | 状态 | 说明 |
|---|---|---|
| Mock 数据生成 | 已实现 | 根据表结构生成测试数据(CSV/SQL INSERT/JSON) |
| JSON → INSERT | 已实现 | JSON 数据转 SQL INSERT 语句 |
| JSON → UPDATE | 已实现 | JSON 数据转 SQL UPDATE 语句 |
| 表格 → INSERT | 已实现 | CSV/TSV/ 剪贴板表格转 INSERT |
| 表格 → UPDATE | 已实现 | CSV/TSV/ 剪贴板表格转 UPDATE |
| 功能 | 状态 | 说明 |
|---|---|---|
| 命名转换器 | 已实现 | snake_case/camelCase/PascalCase/kebab-case 互转 |
| UUID/ID 生成器 | 已实现 | UUID v1/v4/v7、雪花 ID、NanoID、ULID 生成 |
| 时间戳转换 | 已实现 | 时间戳与日期时间格式互转,多时区支持 |
| JWT 解析 | 已实现 | JWT Token 解析、Header/Payload 展示、签名校验 |
| 功能 | 状态 | 说明 |
|---|---|---|
| JSON → Java POJO | 已实现 | JSON 转 Java 类(支持 Lombok、Jackson 注解) |
想向大家介绍下当前 landscape 的分流操作.
建议搭配视频: https://www.bilibili.com/video/BV1Wy26BiEJW
使用其他软件时大多时候应该都是使用其他人配置好的规则进行使用,而有时候其实是需要自定义一些规则,这时需要去改动 yaml 或者 json, 有时候是临时用下就关闭.
landscape 就是为了方便操作而编写的。并且能立即生效.
以下我将使用 DNS 分流进行举例.
当安装完成 landscape 之后,打开分流规则时,只有一条记录也就是当前 LAN 侧的主机访问所有网站时 (因为规则是空的,匹配规则中有提示), 都使用这个默认的 DNS, 并且使用你当前的运营商发出请求:
而在大家常见的使用场景中,需要将某些网站的流量使用特定的 出口 进行访问,比如我这是将 ipleak 单独设置了一个规则,且优先级比默认的规则高 ( 对应 100 和 10000, 越小越高 ).
当这样配置时,内网中的主机访问 ipleak 时,将使用这条规则定义的 “出口” 进行访问,并使用特定的 DNS 进行请求,且 DNS 的流量也会使用定义的出口进行发送 ( 此处是使用 容器 dx ). 可以看视频中实际访问的结果,即使与默认规则都是使用 阿里 DNS 但是 访问 ipleak 时,返回的 DNS 列表 IP 是容器所在地的 DNS IP.
所以在 landscape 中就这样轻松实现了分流.
ipleak 时,使用容器进行处理这个域名的流量,被优先级 100 的规则处理了ipleak 时,使用当前默认的运营商网络进行访问,被 10000 的规则处理了你可以将 ipleak 自定义的域名配置更换成 GeoSite key (landscape 中称为地理关系库) 例如这样:
上方的规则中,指定的 DNS 上游是 Cloudflare. 每条规则你都可以选择使用什么 DNS 服务进行解析.
这样就无需修改 yaml /josn. 并且当你临时不需要时,可以点击启用下的开关关闭,然后就不生效了.
在 landscape 中,你可以不止定义这一组规则。你可以通过新建 Flow 的方式,建立一组新的规则.
20 规则 下的域名时,使用当前默认的运营商网络进行访问然后使用 MAC 或者 IP 匹配的方式将你 LAN 下的某些设备独立于其他设备,单独建立一套分流机制。并且 DNS 的缓存也是独立的,不会相互污染.
比如这样是只对 MAC: 00:a0:98:7f:f9:db 主机生效
也就是说:
00:a0:98:7f:f9:db 的主机访问时,使用 Flow1 中定义的 DNS 规则进行分流其他详细的内容可以观看: https://www.bilibili.com/video/BV1Wy26BiEJW 查看更详细的演示
DNS 上游的定义
GeoSite 的 key 会根据配置的 URL 每天定时更新,并且支持配置多个,下载不了时可以通过上传文件进行手动更新.
不限时,大概是太古老了吧…
画质感人
当时估计也是好游戏:
喜加一 | EPIC 限免(12.29)第十二弹
本期礼物
Skald: Against the Black Priory「SKALD:攻打黑修院」
注:游戏截止!12.30,00:00
想开课程直播,但是无论是课程平台 (小鹅通等) 还是会议系统 (飞书会议等) 都有各种费用,对于低成本的课程直播付一堆费用,简直是被各种平台薅羊毛呀。
现在提供一个简单方案,麻烦一丢丢,确实省钱。
第一步:建立飞书群,把买课的同学拉入,群满了就多开几个群
第二步:使用飞书直播,指定飞书群可观看,直播生成回放,观众可互动,设置生成回放
第三步:开启直播,开启千问实时记录 千问实时记录 - AI 会议纪要神器 - 通义千问实时记录
第四步:下载回放,备用
会议纪要从千问导出来,一并放到飞书文档里,可以阅读就行了。
第五步:大家飞书,新建飞书文档,上传视频文件,设定文档权限
第六步:给指定的群阅读权限
这是一个免费方案,帮你省 1k 费用~
第一个版本链接:
同时也修复了很多水印部分的 BUG,也感谢部分同学的反馈,非常感谢
以下是压缩工具的界面截图:
依旧免费开源!!!觉得不错的记得给我点 Starred。十分感谢
效果预览:
如果你有任何想法或者建议,可以告诉我
整理一下自己各个平台长期在用的 Obsidian 插件
Android (HarmonyOS6 卓易通)
macOS
ArchLinux
iPhone
总结一下主要插件的用途:
准备探索一下的插件
这个组合稳定用了很久了,欢迎补充
混 VPS 久了你一定会发现:
同样是服务器,有的 IP 怎么用都顺,有的 IP 一上来就是 CF 骑脸。
这事八成不是你操作问题,是 IP 质量。
IP 质量 = 你用这个 IP 时,被网站当人还是当机器人。
好的 IP: 注册不折腾, 少验证码, AI 不降智。
烂的 IP:红绿灯 + 斑马线套餐,注册失败、地区不支持, ChatGPT/Gemini 各种异常。
核心就两样:
简单说结论:
家宽 IP:信任度高,但贵、慢、不稳定,机房 IP:便宜、快、稳定,但天生被防,移动 IP:风控有时比家宽还松,但不适合长期用。
风控强度主观排序:家宽 ≈ 移动 > 商业 > 机房
只看三项:
地区, Usage Type, ASN。它如果都标你 VPN / Abuse,直接减分。
非常敏感:标干净的,基本真干净, 标危险的,不一定真危险。当参考即可。
看 ASN + 原生 / 广播,其他数据当娱乐。
一句话:> 直接用,比任何检测站都准。
常用脚本:
bash <(curl -Ls IP.Check.Place)
bash <(curl -L -s check.unlock.media)
无痕模式实测: Google 搜索直接拦 → 基本废, Reddit / YouTube 验证 → 中等扣分, ChatGPT 无人机验证 → 风控明显。 Gemini / Meta 被送中,很多时候是整段 IP 的问题,不是你一个人。 --- ## 伪家宽提醒一句 某些 IP: 在部分库像家宽,在专业库是机房。常见 Cogent / GTT / NTT。花家宽的钱,买机房体验,很亏。 --- ## 最后一句经验话 IP 质量不是一次检测终身有效, 一个库不准很正常,真正的标准只有一个:你用着顺不顺
[相关内容](https://www.heynd.com/archives/vps-ip)关联上一个帖子 —:
V1.1 中文字修复大幅增强!更新年终汇报救星!忍不了 NotebookLM 生成的 PPT(中文错乱 + 分辨率低)的我,搓了一个高清修复工具
修复前 (Original)
修复后 (Restored)
前几天发的那个 NotebookLM 幻灯片修复工具,很多佬友反馈说:“虽然好用,但是要自己搞 Gemini Key,重点是要绑信用卡,太麻烦了!”
必须安排啊!
熬了几个大夜,V2.1 版本终于赶在年前发出来了!这次不整虚的,直接解决大家最头疼的两大门槛:
1. 免 Key、免梯子,开箱即用(最重要!) 之前的版本虽然免费,但你得自己去申请 Google 的 API Key,主要是要绑定信用卡麻烦。 这次我直接重构了后端,加了一个 “Access Code (口令)” 模式。
2. 画质史诗级提升:
3. 体验升级
| 特性 | AI Studio 模式 (自己填 Key) | 新版 Access Code 模式 |
|---|---|---|
| 上手难度 | 高 (需会申请 Key) | 极低 (填码即用) |
| 网络要求 | 需魔法 | 国内直连 |
| 画质上限 | 2K | 4K (独占) |
| 隐私 | Key 在你本地 | 更安全 (不用存 Key) |
(我是真心推荐大家试下新模式,虽然 API 成本我得肉疼一下…)
当然,如果你还是喜欢用自己的 API Key,完全兼容,完全免费,没有任何限制!
(主要是一个人开发维护不易,如果有 bug 轻喷,欢迎 issue!)
今天某个我觉得很好用的一站式 SSH、数据库软件 Hexhub
遂用 cc 捣鼓出了一个注册会员的小工具 HexhubKeygen
注:后续软件热更新会掉签
过程可能需要安装 mitmproxy 证书
如果出现 Client TLS handshake failed. The client does not trust the proxy’s certificate for hexhub.cn (OpenSSL Error ([(‘SSL routines’, ‘’, ‘ssl/tls alert certificate unknown’)])) 异常 根据提示删除证书后重试
分别启用和禁用 Claude Context Local MCP,测试 Claude Code 在项目概览生成任务上的性能和 token 消耗比较
Claude Context Local MCP 使模型从通读部分文档转变为语义检索,使 Claude Code 在更少 token 消耗的情况下,产出了更具技术深度和代码细节的项目概览,提升了效率。总 oken 消耗降低了约 12.5%,交互产生的 Messages 上下文部分节省了约 27.75%。
> 介绍一下这个项目
● 我来帮你探索和介绍这个项目。让我先了解一下项目的结构和内容。
● Read(README.md)
⎿ Read 865 lines
● Read(pyproject.toml)
⎿ Read 165 lines
● Search(pattern: "*.py")
⎿ Found 100 files (ctrl+o to expand)
● 让我再查看项目的实际源代码结构:
● Bash(find /home/tully/Python_Project/mineru-demo -maxdepth 3 -type f -name "*.py" | grep -v
".venv" | head -30)
⎿ /home/tully/Python_Project/mineru-demo/demo/demo.py
/home/tully/Python_Project/mineru-demo/projects/mineru_tianshu/start_all.py
/home/tully/Python_Project/mineru-demo/projects/mineru_tianshu/task_scheduler.py
… +27 lines (ctrl+o to expand)
● Bash(ls -la /home/tully/Python_Project/mineru-demo)
⎿ total 1340
drwxrwxr-x 13 tully tully 4096 Dec 27 12:17 .
drwxrwxr-x 11 tully tully 4096 Dec 26 11:40 ..
… +24 lines (ctrl+o to expand)
● 现在让我看一下项目的核心源代码结构:
● Bash(tree -d -L 2 /home/tully/Python_Project/mineru-demo/mineru)
⎿ /home/tully/Python_Project/mineru-demo/mineru
├── backend
│ ├── pipeline
… +26 lines (ctrl+o to expand)
● 好的,现在我对项目有了充分的了解。让我为用户介绍这个项目:
MinerU 项目介绍
根据我的分析,这是 MinerU (又名 magic-pdf) —— 一个功能强大的 PDF 文档智能解析工具,由 OpenDataLab 开发并开源。
🎯 核心功能
MinerU 能够将 PDF 文档转换为机器可读格式(如 Markdown、JSON),主要特点包括:
📄 文档理解能力
- 布局分析: 自动识别文档结构(标题、段落、列表等)
- 多栏处理: 支持单栏、多栏和复杂排版
- 阅读顺序: 智能识别人类阅读顺序
- 结构保留: 保持原文档的层级关系
🔍 内容提取
- 文本识别: 支持 109 种语言的 OCR 识别
- 公式解析: 自动识别并转换为 LaTeX 格式
- 表格识别: 转换为 HTML 格式,支持复杂表格
- 图像提取: 包括图片说明文字和脚注
🚀 技术亮点
双引擎架构:
1. pipeline 后端 (准确率 82+)
- 快速,无幻觉
- 支持纯 CPU 运行
2. vlm 后端 (准确率 90+) - MinerU2.5 多模态模型
- 仅 1.2B 参数,性能超越 GPT-4o/Gemini 2.5 Pro
- 支持多种加速方式: vLLM, LMDeploy, MLX(Apple Silicon)
- 单 4090 显卡可达 10,000+ tokens/s 吞吐量
💻 项目结构
mineru-demo/
├── mineru/ # 核心源代码
│ ├── backend/ # 解析后端 (pipeline/vlm)
│ ├── cli/ # 命令行工具
│ ├── data/ # 数据读写模块
│ ├── model/ # AI 模型 (OCR/表格/公式等)
│ └── utils/ # 工具函数
├── demo/ # 示例代码
├── projects/ # 扩展项目
└── tests/ # 测试代码
🌟 应用场景
- 学术文献处理: 准确识别科技论文中的公式和表格
- 文档数字化: 将扫描的 PDF 转为可编辑格式
- 知识提取: 为 LLM 准备高质量训练数据
- 内容管理: 批量处理文档并结构化存储
📊 技术栈
- 深度学习: PyTorch, Transformers, ONNX Runtime
- 视觉模型: YOLO, UniMERNet (公式), PaddleOCR
- 推理加速: vLLM, LMDeploy, MLX
- 接口: FastAPI, Gradio WebUI
🔗 相关资源
- 项目地址: /mineru-demo/README.md:588
- 在线体验: https://mineru.net
- 技术报告: https://arxiv.org/abs/2509.22186
- 许可证: AGPL-3.0 (LICENSE.md)
这是一个专为大模型时代设计的文档解析工具,特别适合处理科技文献中的复杂内容(公式、表格、多语言混排等)。
> /context
⎿
Context Usage
⛁ ⛀ ⛀ ⛁ ⛁ ⛁ ⛁ ⛁ ⛁ ⛁ claude-sonnet-4-5-20250929 · 88k/200k tokens (44%)
⛁ ⛁ ⛁ ⛁ ⛁ ⛁ ⛁ ⛁ ⛁ ⛁
⛁ ⛁ ⛁ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛁ System prompt: 3.1k tokens (1.5%)
⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛁ Custom agents: 279 tokens (0.1%)
⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛁ Messages: 40.0k tokens (20.0%)
⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ Free space: 112k (55.8%)
⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛝ Autocompact buffer: 45.0k tokens (22.5%)
⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛝ ⛝ ⛝
⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝
⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝
MCP tools · /mcp
└ mcp__context7__resolve-library-id: 0 tokens
└ mcp__context7__get-library-docs: 0 tokens
└ mcp__exa-pool__exa_search: 0 tokens
└ mcp__exa-pool__exa_get_contents: 0 tokens
└ mcp__exa-pool__exa_find_similar: 0 tokens
└ mcp__exa-pool__exa_answer: 0 tokens
└ mcp__exa-pool__exa_create_research: 0 tokens
└ mcp__exa-pool__exa_get_research: 0 tokens
└ mcp__code-search__search_code: 0 tokens
└ mcp__code-search__index_directory: 0 tokens
└ mcp__code-search__find_similar_code: 0 tokens
└ mcp__code-search__get_index_status: 0 tokens
└ mcp__code-search__list_projects: 0 tokens
└ mcp__code-search__switch_project: 0 tokens
└ mcp__code-search__index_test_project: 0 tokens
└ mcp__code-search__clear_index: 0 tokens
└ mcp__ide__getDiagnostics: 0 tokens
└ mcp__ide__executeCode: 0 tokens
Custom agents · /agents
Plugin
└ python-development:python-pro: 74 tokens
└ python-development:fastapi-pro: 74 tokens
└ python-development:django-pro: 69 tokens
Project
└ research-innovate: 23 tokens
└ review: 21 tokens
└ plan-execute: 18 tokens
> 使用Claude Context Local MCP(已完成索引)介绍一下这个项目
● I'll help you explore and introduce this project using the indexed codebase. Let me search through the code to understand what this project is about.
⎿ {
"result": "{\n \"index_statistics\": {\n \"total_chunks\": 571,\n \"index_size\":
571,\n \"embedding_dimension\": 768,\n \"index_type\": \"IndexReplicas\",\n \"fi
… +16 lines (ctrl+o to expand)
● Read(README.md)
⎿ Error: File content (27393 tokens) exceeds maximum allowed tokens (25000). Please use offset
and limit parameters to read specific portions of the file, or use the GrepTool to search for
specific content.
● code-search - search_code (MCP)(query: "main entry point application initialization", k: 5)
⎿ {
"result": "{\"query\":\"main entry point application initialization\",\"results\":[{\"fi
le\":\"tests/test_data/python_project/main.py\",\"lines\":\"18-35\",\"kind\":\"function\",
… +13 lines (ctrl+o to expand)
● Read(README.md)
⎿ Read 100 lines
● code-search - search_code (MCP)(query: "code search semantic similarity indexing", k: 5)
⎿ {
"result": "{\"query\":\"code search semantic similarity indexing\",\"results\":[{\"file\
":\"mcp_server/code_search_server.py\",\"lines\":\"155-254\",\"kind\":\"method\",\"score\"
… +15 lines (ctrl+o to expand)
● Search(pattern: "*.py")
⎿ Found 100 files (ctrl+o to expand)
● Let me look at the project structure more clearly:
● Read(README.md)
⎿ Read 150 lines
● Read(pyproject.toml)
⎿ Read 165 lines
● code-search - search_code (MCP)(query: "PDF parsing document extraction layout analysis", k: 5)
⎿ {
"result": "{\"query\":\"PDF parsing document extraction layout analysis\",\"results\":[{
\"file\":\"chunking/languages/markdown_chunker.py\",\"lines\":\"58-164\",\"kind\":\"method
… +17 lines (ctrl+o to expand)
● Now let me check the actual project structure:
● Bash(ls -la /home/tully/Python_Project/mineru-demo)
⎿ total 1340
drwxrwxr-x 13 tully tully 4096 Dec 27 12:17 .
drwxrwxr-x 11 tully tully 4096 Dec 26 11:40 ..
… +24 lines (ctrl+o to expand)
● Bash(find /home/tully/Python_Project/mineru-demo -maxdepth 2 -name "*.py" -type f | grep -v
".venv" | head -20)
⎿ /home/tully/Python_Project/mineru-demo/demo/demo.py
/home/tully/Python_Project/mineru-demo/update_version.py
/home/tully/Python_Project/mineru-demo/mineru/version.py
… +3 lines (ctrl+o to expand)
● Read(demo/demo.py)
⎿ Read 241 lines
● Bash(ls -la /home/tully/Python_Project/mineru-demo/mineru)
⎿ total 44
drwxrwxr-x 9 tully tully 4096 Dec 26 11:44 .
drwxrwxr-x 13 tully tully 4096 Dec 27 12:17 ..
… +9 lines (ctrl+o to expand)
● Based on the indexed codebase and project files, let me provide you with a comprehensive introduction to this project:
---
MinerU 项目介绍
项目概述
MinerU 是一个功能强大的 PDF 到 Markdown 转换工具,由 OpenDataLab 开发。这是一个开源项目(AGPL-3.0 许可证),专门用于将 PDF 文档转换为结构化的 Markdown 格式,特别擅长处理复杂的学术论文、技术文档等。
核心特性
1. 多后端支持
- Pipeline 后端:更通用,适合大多数场景
- VLM(视觉语言模型)后端:
- vlm-transformers:通用性强
- vlm-vllm-engine:更快(使用 vLLM 引擎加速)
- vlm-lmdeploy-engine:支持 Windows 平台的本地推理加速
- vlm-mlx-engine:专为 Apple Silicon 优化,速度提升 100%-200%
- vlm-http-client:客户端模式,连接远程服务器
2. MinerU2.5 模型
项目的核心是 MinerU2.5 多模态大模型:
- 仅有 1.2B 参数,但性能超越 Gemini 2.5 Pro、GPT-4o 等大型模型
- 在 OmniDocBench 基准测试中达到 SOTA(最先进)水平
- 支持五大核心能力:
- ✅ 布局分析(Layout Analysis)
- ✅ 文本识别(OCR)
- ✅ 公式识别(Formula Recognition)
- ✅ 表格识别(Table Recognition)
- ✅ 阅读顺序识别(Reading Order)
3. 强大的解析能力
- 多语言 OCR:支持 37 种语言(中英法德俄韩日等)
- 公式解析:支持复杂数学公式、中英混合公式
- 表格解析:
- 支持旋转表格(0°/90°/270°)
- 无边框/半结构化表格
- 跨页表格合并
- 复杂长表格
- 布局检测:精确识别页眉、页脚、页码、列表、引用等非正文内容
4. 性能优化
- OCR 速度提升 200%-300%
- 支持批量处理
- 高并发场景优化
- GPU/CPU 资源配置灵活
项目结构
mineru-demo/
├── mineru/ # 核心代码
│ ├── backend/ # 后端实现(pipeline, vlm)
│ ├── cli/ # 命令行工具
│ ├── data/ # 数据读写处理
│ ├── model/ # 模型相关代码
│ ├── utils/ # 工具函数
│ └── resources/ # 资源文件
├── demo/ # 示例代码(demo.py:1-241)
├── tests/ # 测试代码
├── docs/ # 文档
└── docker/ # Docker 配置
主要用法
Python API 示例(demo/demo.py)
from pathlib import Path
from mineru.demo.demo import parse_doc
# 解析 PDF 文档
doc_path_list = [Path("document.pdf")]
output_dir = "output"
# 使用 Pipeline 后端
parse_doc(doc_path_list, output_dir, backend="pipeline")
# 或使用 VLM 后端(更快更准)
parse_doc(doc_path_list, output_dir, backend="vlm-vllm-engine")
命令行工具
项目提供多个命令行工具(pyproject.toml:112-118):
- mineru - 主程序
- mineru-models-download - 模型下载
- mineru-api - FastAPI 服务
- mineru-gradio - Web UI
- mineru-vllm-server - vLLM 推理服务器
输出格式
MinerU 可以生成多种输出:
- Markdown 文件:格式化的文本内容
- content_list.json:结构化内容列表(带坐标)
- middle.json:中间处理结果
- layout.pdf:布局可视化(标注边界框)
- 图片提取:提取文档中的图片
技术亮点
1. 两阶段推理架构:将布局分析与内容识别解耦
2. 原生高分辨率支持:处理高分辨率文档不失真
3. 混合表格结构解析:结合有线框表格识别模型
4. 跨页表格续接:智能合并跨页表格
5. 环境变量配置:灵活的参数配置(超时、并发、特性开关等)
应用场景
- 📚 学术论文解析
- 📄 技术文档提取
- 📊 表格数据提取
- 🔢 数学公式识别
- 🌐 多语言文档处理
- 🤖 RAG(检索增强生成)系统的文档预处理
社区与文档
- GitHub: https://github.com/opendatalab/MinerU
- 在线文档: https://opendatalab.github.io/MinerU/
- 在线体验: https://mineru.net/
- HuggingFace Demo: https://huggingface.co/spaces/opendatalab/MinerU
- 技术报告: https://arxiv.org/abs/2509.22186
---
这个项目是目前最先进的 PDF 文档解析工具之一,特别适合需要高质量文档解析和结构化提取的场景!
> /context
⎿
Context Usage
⛁ ⛀ ⛀ ⛁ ⛁ ⛁ ⛁ ⛁ ⛁ ⛁ claude-sonnet-4-5-20250929 · 77k/200k tokens (39%)
⛁ ⛁ ⛁ ⛁ ⛁ ⛁ ⛁ ⛶ ⛶ ⛶
⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛁ System prompt: 3.1k tokens (1.5%)
⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛁ Custom agents: 279 tokens (0.1%)
⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛁ Messages: 28.9k tokens (14.5%)
⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ Free space: 123k (61.3%)
⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛝ Autocompact buffer: 45.0k tokens (22.5%)
⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛶ ⛝ ⛝ ⛝
⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝
⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝ ⛝
MCP tools · /mcp
└ mcp__context7__resolve-library-id: 0 tokens
└ mcp__context7__get-library-docs: 0 tokens
└ mcp__exa-pool__exa_search: 0 tokens
└ mcp__exa-pool__exa_get_contents: 0 tokens
└ mcp__exa-pool__exa_find_similar: 0 tokens
└ mcp__exa-pool__exa_answer: 0 tokens
└ mcp__exa-pool__exa_create_research: 0 tokens
└ mcp__exa-pool__exa_get_research: 0 tokens
└ mcp__code-search__search_code: 0 tokens
└ mcp__code-search__index_directory: 0 tokens
└ mcp__code-search__find_similar_code: 0 tokens
└ mcp__code-search__get_index_status: 0 tokens
└ mcp__code-search__list_projects: 0 tokens
└ mcp__code-search__switch_project: 0 tokens
└ mcp__code-search__index_test_project: 0 tokens
└ mcp__code-search__clear_index: 0 tokens
└ mcp__ide__getDiagnostics: 0 tokens
└ mcp__ide__executeCode: 0 tokens
Custom agents · /agents
Plugin
└ python-development:python-pro: 74 tokens
└ python-development:fastapi-pro: 74 tokens
└ python-development:django-pro: 69 tokens
Project
└ research-innovate: 23 tokens
└ review: 21 tokens
└ plan-execute: 18 tokens
本地化的代码库语义索引工具,可零 API 成本、完全私密地由嵌入向量 (embeddings) 将整个代码库转化为可检索的上下文,显著减少 token 消耗并提升代码理解准确性。
curl -fsSL https://raw.githubusercontent.com/FarhanAliRaza/claude-context-local/main/scripts/install.sh | bash 命令,即可完成自动化的环境检测、依赖安装、Embedding 模型下载。再次执行该命令可以执行一次更新;Error该命令可能因未获取到 Hugging Face 令牌而下载 Embedding 模型失败,需要依次:
- 创建 Read 权限的 token 后,执行
(cd ~/.local/share/claude-context-local && uv run huggingface-cli login --token hf_***)命令登录;- 访问 google/embeddinggemma-300m 接受模型使用条款;
- 重新手动下载模型:
(cd ~/.local/share/claude-context-local && uv run scripts/download_model_standalone.py)。
claude mcp add code-search --scope user -- uv run --directory ~/.local/share/claude-context-local mcp_server/server.py;在项目中首次使用时,向 Claude Code 声明 “索引代码库” 即可。少量的代码更新可由 Merkle Tree 智能增量更新文件哈希树变更;大量的代码变更可再次向 Claude Code 声明 “索引代码库”。亦可设置 Git Hook(如.git/hooks/post-merge)提示重新索引。
我有几个问题想请佬咨询一下
- 这个 MCP 是否类似于 Cursor 的 Codebase Indexing 功能?
- 有更好的类似工具或 MCP 工具吗?欢迎推荐
电信用户在『我』菜单有个「年终福利」,可以用金豆抽奖(限 1 次),保底 188 金豆,先到先得,可能不是所有人都看得到。
https://store.epicgames.com/zh-CN/p/skald-against-the-black-priory-cffcc0
Epic 游戏商城假日连送继续,今日的神秘游戏是一款致敬 80 年代黄金岁月、融合了黑暗奇幻与洛夫克拉夫特式恐怖的复古小队 RPG——《SKALD:攻打黑修院》(SKALD: Against the Black Priory)。
注意:这游戏貌似没中文。
《纪念碑谷》及其续作《纪念碑谷 2》手机端游戏也在限时免费领取中:
确保账号已登录,点击上方链接一键领取。
检测模型是 AIGC_detector_zhv3 的 q8 量化版本,使用 WebGPU 进行部署,实测 13 代 i5 核显也能跑。
纯前端工具,除了下载模型的时候会发起网络请求,其他都是在本地运行的。
图一乐,仅供参考,该模型是基于 bert 的所以比基于大模型的检测工具要轻量很多。
效果如下图:
2025 年 12 月,白银市场经历了史诗级的暴涨。现货白银(London Silver)价格冲破每盎司 79 美元 关口,年内涨幅超 170%,其波动性和上涨斜率已远超黄金。
近期关于白银投机的话题很热,原因是场内溢价居高不下,可以进行套利(具体方式可问 AI)。溢价(Premium)是指投资产品的交易价格高于其内在价值(净值)的现象。在此轮行情中,国内唯一的白银期货公募基金(国投白银 LOF)溢价率一度突破 60%-70%。这意味着场内交易者愿意多花六七成的溢价去抢购该基金,本质上是在博弈更疯狂的涨势,而非进行资产配置。
马斯克(Elon Musk)近期在社交平台 X 上对此明确表示:“这不是什么好事。许多工业生产都需要白银。” 马斯克的担忧不仅在于特斯拉的造车成本,更在于其 “宏图计划”(Master Plan 3) 的核心 —— 可持续能源转型。
对光伏(PV)板块的影响:白银是光伏电池正银 / 背银浆料(用于收集电流)的核心原材料。在之前的成本构成中,硅料是最大的开支,但随着银价翻倍,银浆已跃升为光伏组件中占比最大的单一原材料成本。
对电动车(EV)板块的影响:电动车对白银的需求远高于传统内燃机汽车。白银具有极佳的导电性,被广泛应用于电驱动系统、车载电子设备(如传感器、显示屏)以及充电桩的连接器中。每一台纯电动汽车大约需要使用 25-50 克 白银。
还有其他板块如 AI 算力与基础设施、半导体与消费电子、通信与 5G 基础设施和医疗器械也会受到不小的冲击。
MiniMax M2.1 是一款多语言编程 AI 模型,支持 Rust、Java、Golang 等多种语言,覆盖从底层系统到应用层开发。它在 Web 和 App 开发场景中表现出色,能构建复杂交互和高质量可视化表达。此外,M2.1 在办公场景中的可用性显著提升,可高效处理复合指令约束任务。
性能方面,M2.1 回复简洁,响应速度和资源利用效率显著提升。它在多种编程工具和框架中表现稳定,支持多种 Context Management 机制。模型还具备自主调用工具完成任务的能力,可实现办公自动化。
MiniMax M2.1 提供了两个版本的 API,分别是 M2.1 和 M2.1-lightning,后者速度更快,适合对 TPS 有需求的用户。同时,M2.1 全面支持自动 Cache,无需设置,自动生效,为开发者带来更流畅的体验、更低的成本与更优的延时表现。
维他动力发布全球首款无需遥控的智能机器狗 “大头 BoBo”。该机器狗采用自研关节电机,具备强大负重与拖拽能力,续航 5 小时,配备一体化电池仓设计。
在空间智能方面,搭载多种传感器与全场景空间基座模型,支持语音交互与自主避障。 产品还配备全能拓展背板,支持多种接口,满足不同使用需求。
深入探讨了大模型技术的核心演进方向与未来行业格局。指出提升模型效能的关键在于持续规模化基础模型,并通过长尾场景对齐与强化推理能力来增强实际体验。智能体(Agent)化与记忆机制被视为 AI 迈入真实世界的里程碑,使模型从单纯的知识积累转向真正的生产力工具。
未来,AI 的发展将聚焦于自我评估与在线学习,通过端到端的技术整合逐步替代人类特定工种。此外,作者认为领域大模型仅是过渡产物,而多模态与具身智能的突破则依赖于更庞大的数据积累与硬件稳定性。
总而言之,AI 的应用本质并非创造新软件,而是通过模拟或辅助人类工作来创造实质价值。
文章探讨了人工智能革命对个人、组织及社会形态的深刻重塑,强调我们必须摆脱 “后视镜思维”,即停止用旧时代的逻辑来束缚新技术。
作者通过钢铁与蒸汽机的历史类比,指出程序员已率先从 “骑自行车” 转向 “开汽车”,即从亲历亲为转变为管理无限大脑的指挥官。在组织层面,AI 扮演着支撑信息流的 “钢铁架构”,能打破传统沟通成本的瓶颈,促使企业从低效的传统模式向高敏捷性进化。
未来,知识经济将从 “人类尺度” 的小型城市演变为如同东京般的巨型智能网络,实现全天候、大规模的自动化协作。真正的变革不在于用 AI 优化现有工具,而在于彻底重构工作流程,释放无限心智作为基础设施的潜能。
程序员 Armin Ronacher 对其 2025 年工作与生活的深度总结。他详细描述了自己从传统手动编程向代理式编程(Agentic Coding)的重大转变,并分享了使用 Claude Code 等 AI 工具作为虚拟助手的实践经验。
作者探讨了 AI 带来的心理冲击,包括人机之间产生的 “准社会关系” 以及对 “智能体” 定义的哲学思考。文中还指出了当前版本控制和代码审查工具在 AI 时代面临的局限性,呼吁技术架构进行相应革新。最后,他反思了 AI 生成内容的质量问题,并强调在拥抱自动化的同时应保持人类的责任感与技术水准。
通过深入的行业数据,全面揭示了人工智能如何重塑软件开发生态。
报告指出,AI 工具已成为开发者的效能倍增器,显著提升了代码产出量并增加了拉取请求(PR)的规模与密度,同时详细分析了 Anthropic 与 OpenAI 在模型性能、响应速度及成本效率上的激烈竞争。
除了市场工具的普及趋势,文章还汇编了关于混合专家模型(MoE)、长文本处理与强化学习搜索的前沿研究,旨在探讨如何通过算法优化解决上下文管理和智能体推理的瓶颈。
整体而言,该报告不仅记录了编程工具链的快速更迭,更旨在引导工程团队在日益自动化的开发流程中,通过技术创新实现更高效的逻辑推理与系统构建。
报告汇总了来自 177 个国家数万名从业者的反馈,全面剖析全球软件开发现状。
文本揭示了技术生态的深刻变革,特别强调了 AI 工具的普及与矛盾:尽管超过八成的开发者已将 AI 纳入流程,但普遍存在对 AI 生成内容准确性的质疑以及对 “似是而非” 代码的调试挫败感。此外,报告还追踪了工具偏好的演变,指出 Python 和 Rust 的生态系统(如 Cargo 和 uv) 正受到狂热追捧,而远程办公与工作满意度之间的正向联系也愈发凸显。
通过对开发角色、学习路径及社区参与度的多维度分析,该报告不仅勾勒出当前的技术趋势,更反映了开发者在追求效率的同时,对信息安全与知识真实性的核心关切。
详尽分析了全球互联网流量的动态演变,揭示了网络连接在现代社会各领域的深远影响。
深入探讨了生成式人工智能的爆发式增长及其对网络爬虫流量的重塑,还重点关注了网络安全趋势,涵盖了后量子加密技术、超大规模 DDoS 攻击以及电子邮件威胁的最新演变。
通过对 SpaceX Starlink 卫星互联网普及率、移动端与桌面端占比以及新兴协议采纳情况的统计,系统地描绘了全球数字基础设施的连接质量与技术整合现状。
通过 Cloudflare 全球网络的宏观数据,为读者提供一个观察互联网行业竞争态势与防御机制的权威视角。
回顾详述了谷歌在人工智能领域实现从辅助工具向通用实用程序跨越的里程碑。
全文围绕 Gemini 3 系列模型的科研突破展开,重点介绍了其在复杂推理、多模态理解以及赋能科学探索方面的卓越表现。通过涵盖医疗基因组学、量子计算、气候预测和创意协作等八大板块,文章展示了谷歌如何将前沿技术转化为提升生产力与应对全球挑战的具体应用。
最终,该报告强调了在追求技术极限的同时,必须秉持负责任的开发态度,通过跨行业协作确保人工智能的安全性与社会共益。
自动从 RSS 源更新项目 README 文件中的博客列表,以实现 Github 主页自动刷新。
Green-Wall 可用于生成 GitHub 贡献图和 AI 驱动的年度报告。
一个现代化、跨平台且免费的 AI RSS 阅读器.
随机生成多种风格的头像图片,让你的头像不再 “撞衫”。(@xingxingc 投稿)
Storyset 提供免费可定制插画,支持 Figma 插件,可在线编辑颜色、背景与图层,适配多种项目需求。其动画功能可将静态插画转化为动态效果,提升视觉吸引力。
腾讯朱雀 AI 文本检测基于多种先进的人工智能模型,构造数百万级别的数据进行训练,能够识别出人类和 AI 的书写模式。该系统不仅具备优秀的英文检测能力,在处理中文数据方面表现尤为出色。
免费的商户采集工具,配套:打电话、加入通讯录、定位、导航和导出分享等功能,适合实体业务方向使用。(@xingxingc 投稿)
猫头鹰智能网页订阅系统基于 AI 技术,实现了网页变化的智能监测与精准推送。系统采用先进的语义理解和智能降噪算法,能够自动过滤无关信息,仅推送用户关心的内容变化,如价格波动、库存更新、内容发布等。其多平台通知系统支持短信、邮件和 Webhook 等多种方式,确保用户实时接收重要信息。(@jufeng-2022 投稿)
期刊资源合集。
结合图片学习 Transformer。
聚焦于性能优化,提供了通用原则和具体技术。
经过周末两天熬夜 coding,新增完善了更多功能,以全新的方式给大家见面,预览版仅发布 7 天,用来收集需求和建议。
特感谢各公益站大佬提供的免费且稳定的 API
临时服务器 (2H4G) 部署了 mysql、redis、nginx、python,比较卡,请见谅。
由于项目代码在早期尚未开源,正在进行需求收集。
目前开发比较少,期待有识之士加入,若您提出了具有建设性的建议,并且愿意参与代码实现,将为您开放代码仓库并邀请您加入开发团队。(会控制在 5 人左右~)
如果您对参与此项目感兴趣,或希望了解更多细节,敬请回复私信,我们将为您提供代码仓库的访问权限,并安排一次线上 / 线下交流,以便快速对接合作事宜。
ps,测试过程中发现 kimi 和豆包都喜欢梭哈,哈哈哈
把 AI 的目标从 “直接生成最佳结果” 转向 “构建一个能持续生成最佳结果的机制”。系统通过自我迭代形成闭环,在循环中不断进化,逐步逼近稳定且高效的理想状态。
传统优化往往聚焦于某一次输出(例如把一段代码写得更好)。而该框架强调优化生成器(Generator)本身 —— 打造一个 “越来越会生成” 的系统。
关键点:
系统由三个核心组件构成,并以三步循环递归更新。
希望收敛到一个 “不动点” 状态 (G):
直观理解:更新不再显著改变生成器(或仅有微小增益)。
为了便于落地,可以把上面的 G/O/M 映射为两套 “母体提示词” 协作:
也就是说:Ω 负责把产物变好,反馈机制负责把 “变好的经验” 写进 α。
α(v1) 与 Ω(v1)Ω(v1) 优化 α(v1) → 得到更强的 α(v2)α(v2) 生成目标提示词 / 技能 / 内容产物Ω(v2))反馈α,进入下一轮:α(v3) …本质是一个 “以生成养生成” 的自举过程:系统每轮都更会生成、更会评估、更会自我升级,持续逼近理想状态。
功能: 基础功能: 支持: 仓库: 核心: [Template] Shortcuts.js
简介
为各种网站,添加自定义快捷键!
ChatGPT、Claude、Gemini…
Template_shortcuts.js/Site_JS at main · 0-V-linuxdo/Template_shortcuts.js · GitHub