OmniDocBench v1.6:为什么这份基准值得你关注

文档解析领域的基准评测长期面临碎片化困境:不同团队使用各自的评测协议和指标定义,跨论文性能比较几乎无法直接进行。中文开发者要在 arXiv 上追踪这些更新,不仅要消化语言障碍,还要梳理每篇论文自定评测细节带来的认知开销。OmniDocBench 正是为解决这个碎片化问题而生的统一评测平台,由 OpenDataLab 官方维护,整合了文本编辑距离、表格 TEDS、公式 CDM 和阅读顺序编辑距离四大维度的评估指标。最初的 v1.5 版本已经支撑了大量前沿工作的横向对比,但随着顶级模型分数快速趋同,匹配策略偏差和困难样本覆盖不足两个结构性问题开始显现。v1.6 协议针对这两点做了实质性升级:多粒度自适应匹配(MGAM)修正了因输出粒度差异导致的评分偏差;同时从难度分层中精选 296 页构成 Hard 子集,在保留 1,355 页 Base 子集的基础上提供跨场景区分空间。本文的目标是将 OmniDocBench v1.6 的官方 benchmark 数据中文化并结构化呈现,让社区有一个可公开引用的中文锚定来源。

综合得分:95.69,OmniDocBench v1.6 Full 排名第一

在 OmniDocBench v1.6 Full 协议下,MinerU2.5-Pro 综合得分 95.69,在 15 个专用文档解析模型和 6 个通用视觉语言模型(VLM)中排名第一。综合分数由四项子指标的加权平均计算得出:文本编辑距离(越低越好)、表格 TEDS(越高越好)、公式 CDM(越高越好)和阅读顺序编辑距离(越低越好),覆盖了解析准确性的核心维度。这一加权方案延续了 MinerU2.5 的评分公式,确保与历史结果的可比性。

以下是在 Full 协议下综合得分排名前六的模型:

| 排名 | 模型 | 参数量 | Full Overall |
| --- | --- | --- | :-: |
| 1 | MinerU2.5-Pro | 1.2B | 95.69 |
| 2 | GLM-OCR | ~1B | — |
| 3 | PaddleOCR-VL-1.5 | 0.9B | — |
| 4 | MinerU2.5 | 1.2B | 92.98 |
| 5 | Gemini 3 Pro | 未公开 | 92.85 |
| 6 | Gemini 3 Flash | 未公开 | 92.58 |

排名中的一类模型——参数量从 0.9B 到 1.2B 的专用文档解析模型(MinerU2.5-Pro、GLM-OCR、PaddleOCR-VL-1.5、MinerU2.5)——在 Full 和 Base 协议下均占据了 Top 4 中的 4 个位置。另一类模型——通用 VLM(Gemini 3 Pro/Flash、Qwen3-VL-235B 等)——参数量达到数百亿甚至上千亿,但仍然以 2-3 分的差距落后于 1.2B 的专用模型。这组对比表明,在文档解析这一结构化任务上,模型架构和参数规模的边际收益正在递减,训练数据的系统化工程——覆盖率、信息量和标注准确率的协同优化——成为当前阶段更具性价比的性能提升路径。

MinerU2.5-Pro 在保持与 MinerU2.5 完全相同的架构(NaViT-675M 视觉编码器 + Qwen2-0.5B 语言模型)和参数量的前提下,将综合得分从 92.98 提升到 95.69,增幅 2.71 分。这些增益全部来自数据工程和训练策略优化——Data Engine 将训练数据从不到 10M 页扩展到 65.5M 页,同时修正了分布偏移和标注噪声;三阶段渐进式训练(大规模预训练→困难样本微调→GRPO 强化学习)按序利用不同质量层级的数据,使困难场景和标准场景同步受益。

在 Base 子集(1,355 页常规样本)上,前三名的差距在 0.5 分以内:GLM-OCR 96.19、MinerU2.5-Pro 96.12、PaddleOCR-VL-1.5 95.72。这种聚集效应表明常规文档解析场景已经接近饱和,进一步的区分需要依赖 Hard 子集。在元素级子指标上,MinerU2.5-Pro 在公式 CDM(97.29)、表格 TEDS(93.42)、表格 TEDS-S(95.92)和阅读顺序(0.120)四个维度均取得最佳分数。

一个值得注意的观察是,Gemini 3 Pro 和 Gemini 3 Flash 在 v1.6 协议下取得了 92.85 和 92.58 的分数,相比 v1.5 有显著提升。这主要得益于 MGAM 修正了匹配偏差,使得之前因输出粒度差异被压低分数的大型 VLM 获得了更公平的评估——这反过来验证了 v1.5 匹配策略对特定输出格式的系统偏好。即便如此,参数量仅为这些通用 VLM 数百分之一的专用模型(MinerU2.5-Pro、PaddleOCR-VL-1.5 等)仍然保持了总体领先。

文本识别:Edit Distance 0.019,字符准确率 98.1%

文本识别评估的是模型从裁剪文本区域中转录纯文本的能力,是文档解析最基础的模块。OmniDocBench 采用编辑距离(Edit Distance,即 Levenshtein 距离)作为衡量指标,计算的是将模型输出转换为真值文本所需的最小单字符编辑操作数(插入、删除、替换),再除以真值文本长度得到归一化距离。数值越低表示识别越准确。

一个直观的换算方法:编辑距离 0.019 意味着平均每 1,000 个字符中约有 19 个字符级别的误差,对应的字符准确率约为 98.1%。换算公式为:字符准确率 ≈ (1 - Edit Distance) × 100%。对于中文文本场景,这个换算需要谨慎——中文的"字符"单位是字而非字母,一个字的识别错误可能带来较大语义偏差,但作为指标换算的近似理解,这个公式仍能提供直观感受。

在元素级文本识别评估中——即基于真值布局框裁剪文本区域后独立测试,排除布局检测误差对内容识别的干扰——MinerU2.5-Pro 在 Full 协议下取得了 0.019 的编辑距离,排名第一。这一成绩比同架构前代 MinerU2.5(编辑距离 0.028)降低了 30.5%。在元素级评估设定下,模型不接收元素的类别先验,因此这一改善完全来自文本识别能力的系统性提升。

以下是三个评估档位的编辑距离及等效字符准确率:

子集Edit Distance等效字符准确率
Full(元素级)0.01998.1%
Base(端到端)0.03396.7%
Hard(端到端)0.04895.2%

0.019 来自元素级评估(§6.3 Table 4),而 0.033(Base)和 0.048(Hard)来自端到端评估协议下的文本子指标(附录 C Table 7/8),前者排除了布局检测的影响,后者包含了它。两套协议的数字不能直接加权汇总,但趋势一致:即使在包含布局误差的 Hard 端到端场景下,字符识别准确率仍然维持在 95.2%。综合两套协议的数据,可以给出一个保守的中文表述:

MinerU2.5-Pro 中文文本字符识别准确率 98.1%(整体)/ 95.2%(难样本)。

与同场竞技的其他模型相比,MinerU2.5-Pro 在文本识别准确率上的优势并不像表格和公式那样悬殊——千亿级通用 VLM(如 Qwen3.5-397B、Qwen3-VL-235B)在文本识别上表现出与专用模型相当的竞争性水平。这主要是因为纯文本转录相对表格结构和公式语法而言,对领域知识的依赖更少。但在生产部署场景下,1.2B 参数意味着更低的推理成本、更快的处理速度和更小的显存占用,对需要大规模批处理 PDF 文档的团队而言更具实际意义。

表格识别:TEDS 91.10,五个公开基准排名第一

表格识别是文档解析中结构化程度最高、也最容易出错的子任务。一张表格的还原质量不仅涉及单元格文本内容的准确率,还要求行/列结构和合并关系的正确恢复——很多情况下,一个行错位会导致整列内容张冠李戴,而单元格边界的偏移则可能让下游的数据提取在毫不知情的情况下输出错误。OmniDocBench 采用 TEDS(Tree Edit Distance based Similarity)作为评估指标。

TEDS 的核心逻辑是:将预测的表格 HTML 和真值表格 HTML 各解析为树结构,计算编辑距离相似度。0 表示完全不同,100 表示完全一致。TEDS-S(TEDS Structure-only)是 TEDS 的变体,在计算时忽略单元格内的文本内容,只关注结构特征——即单元格合并、跨行跨列关系、表格的行列划分是否准确。两者的差值可以反映"结构误差"和"内容误差"的相对比重:如果 TEDS 和 TEDS-S 差距较大,说明模型结构还原好但内容转录不够准确;如果两者都偏低,说明结构还原本身就有问题。

在元素级评估中——同样基于真值布局框裁剪表格区域后独立测试——MinerU2.5-Pro 取得 Overall TEDS 91.10、TEDS-S 94.48,均排名第一。以下是各评估子集和公开基准的详细得分:

评估集TEDSTEDS-S
OmniDocBench Full(元素级)91.1094.48
OmniDocBench Hard(端到端)92.46
OmniDocBench Base(端到端)94.4996.64

Hard 子集上的 TEDS 表现尤其值得关注——MinerU2.5-Pro 在 Hard 端到端表格识别上取得 92.46,比 MinerU2.5 基线的 88.28 提升了 4.18 分。这意味着在数据结构最为复杂、内容最为困难的表格场景上,Data Engine 的定向式困难样本标注和专家标注贡献了最大的边际增益。GLM-OCR 在 Base 子集(TEDS 96.14)上表现略好,但跨基准稳定性不如 MinerU2.5-Pro——PaddleOCR-VL-1.5 在 CCOCR 和 Inhouse 等跨基准测试中出现了明显的性能下降(CCOCR TEDS 76.34、Inhouse TEDS 72.66),表明其表格识别泛化能力仍然有限。

MinerU2.5-Pro 表格还原综合得分 91.1,在 5 个公开基准上排名第一。

TEDS 和 TEDS-S 之间的差距(91.10 vs 94.48,约 3.4 分)暗示当前模型在表格结构还原上已经相当精准,剩余误差主要来自单元格内部文本内容的误识别。对于那些在大规模文档批处理中依赖表格结构化输出的团队,这意味着核验资源的分配优先级可能应该向单元格文本内容倾斜,而非反复检查表格线框是否对齐。

公式识别:CDM 97.29,五个基准子集排名第一

公式识别长期以来是文档解析的技术难点。LaTeX 语法严格——拼写错误、括号不匹配、命令未闭合都会导致编译失败——而数学公式的视觉布局千变万化:从简单印刷体到密集的多行方程,从手写草书到屏幕截图。OmniDocBench v1.6 采用 CDM(Character Detection Matching)作为评估指标。CDM 由 MinerU 团队在 CVPR 2025 提出,其核心思路是将预测 LaTeX 和真值 LaTeX 中的字符进行检测级匹配而非序列级评分。相比传统的 BLEU 评分——它对 n-gram 重叠敏感但容易放过局部结构错误——CDM 对单个字符的缺失、多出和替换更加敏感,能够更准确地反映公式结构的完整性。

在元素级评估中,MinerU2.5-Pro 的 Full 协议 CDM 达到 97.29,覆盖 9 个公式基准子集。这 9 个维度覆盖了公式识别的代表性场景:印刷体(简单和复杂)、手写、屏幕截图、中文上下文、低质量/模糊、以及标准基准本身。具体子集表现如下:

  • OmniDocBench Base:CDM 99.20,接近满分,表明常规印刷公式几乎完全解决
  • 复杂印刷体(Complex Printed):最优得分,复杂布局无妥协
  • 手写公式(HWE):95.38,仅次于 Qwen3.5-397B 的 97.59
  • 屏幕截图公式(SCE):97.04,仅次于 GLM-OCR 的 97.77
  • 简单印刷体(Simple Printed):最优或接近最优
  • 中文上下文公式(Chinese):95.28
  • 模糊/低质量公式:与 MinerU2.5 在同一水平

MinerU2.5-Pro 公式识别 CDM 97.29,在 9 个基准子集里 5 个排名第一;中文公式专项 95.28 分。

这套子集得分的分布曲线揭示了一个有趣的分布特征。Qwen3.5-397B 在手写公式场景上以 CDM 97.59 领先 MinerU2.5-Pro 的 95.38,说明大规模通用 VLM 在手写这种视觉风格高度不规范的场景上有天然的数据多样性优势。但 Qwen3.5-397B 在中文上下文公式上的 CDM 仅为 78.24,与 MinerU2.5-Pro 的 95.28 之间存在近 17 分的差距——这是通用 VLM 在高资源语言(英文)场景和低资源语言场景之间表现不均衡的一个典型案例。相比之下,MinerU2.5-Pro 在所有子集上的 CDM 都在 95 以上,没有明显的短板场景。

在 OmniDocBench Base 上 CDM 达到 99.20,这个数字表明在常规印刷公式场景上,MinerU2.5-Pro 的表现已经逼近理论天花板。剩余不到 1% 的误差涉及边界情况——极小字号、极端字体、严重的油墨渗散等——这些场景可能需要专门的训练数据扩充或后处理来进一步收窄。

同档位对比与 Hard 子集稳定性

将 MinerU2.5-Pro 置于同档位模型中横向比较,可以更直观地看到它在识别准确率和稳定性上的相对位置。以下精简对比表覆盖专用模型和通用 VLM 两个阵营,聚焦 Base→Hard 的分数衰减——这个指标比单一分数更能反映模型的真实鲁棒性:

| 模型 | 参数量 | Base Overall | Hard Overall | 下降幅度 |
| --- | --- | :-: | :-: | :-: |
| MinerU2.5-Pro | 1.2B | 96.12 | 94.08 | -2.04 |
| GLM-OCR | ~1B | 96.19 | 92.01 | -4.18 |
| PaddleOCR-VL-1.5 | 0.9B | 95.72 | 92.48 | -3.24 |
| Gemini 3 Pro | 未公开 | — | 91.99 | — |
| HunyuanOCR | — | 92.45 | 82.69 | -9.76 |

以上对比数据来自不同的来源约束:GLM-OCR、PaddleOCR-VL-1.5 等专用模型的分数源自各自的技术报告,属于"自证数据"(self-reported);Gemini 3 Pro 和 HunyuanOCR 的分数来自 MinerU2.5-Pro tech report 的统一 reevaluate 环境。不同团队的评测环境和预处理流程可能存在细微差异,直接横比时建议以同一 reevaluate 环境下的分数为准。

MinerU2.5-Pro 是 Base→Hard 掉分最少的模型,稳定性领先。 从 Base 到 Hard,MinerU2.5-Pro 下降 2.04 分(96.12→94.08);GLM-OCR 下降 4.18 分(96.19→92.01);HunyuanOCR 从 92.45 骤降至 82.69,降幅高达 9.76 分。在 Hard 子集的绝对分数上,MinerU2.5-Pro 以 94.08 领先第二名 PaddleOCR-VL-1.5(92.48)1.60 分。

这种稳定性并非巧合。MinerU2.5-Pro 的 Data Engine 在设计之初就将"困难样本的适应能力"作为核心目标——跨模型一致性验证(CMCV)将训练数据按难度分为简单、中等、困难三层,三阶段渐进式训练(大规模预训练→困难样本微调→GRPO 强化学习)按序利用不同质量层级的数据。消融实验揭示了每个训练阶段的增量贡献:阶段 1(大规模 SFT,65.5M 样本)贡献了最大的单阶段增益(+1.31 分),说明 Data Engine 在数据覆盖率和标注质量上的优化是整个 pipeline 性能提升的主要来源;阶段 2(困难样本微调,192K 专家标注样本)增加 +0.96 分,其中表格识别的提升最为显著(TEDS 从 90.37 到 92.87,+2.50);阶段 3(GRPO 强化学习)贡献 +0.45 分,主要体现在公式 CDM 的改进(96.48→97.29,+0.81),由强化学习直接优化任务级指标驱动。

将累积收益拆解到子集上:Hard 子集全阶段累积提升 +2.43 分(91.65→94.08),Base 子集提升 +2.89 分(93.23→96.12),两者幅度相当。这意味着渐进式训练策略在标准场景和困难场景上实现了均衡的能力增长,避免了传统微调中"只会做简单题"的泛化退化风险。GRPO 阶段通过直接优化编辑距离、CDM、TEDS 等任务级指标,进一步弥合了交叉熵训练目标和最终评估指标之间的差距。

复现指南与已知局限

如果你希望在自有数据集上验证或复现上述结果,以下资源可以直接使用:

  • MinerU 开源仓库https://github.com/opendatalab/MinerU
  • MinerU2.5-Pro 模型权重https://huggingface.co/opendatalab/MinerU2.5-Pro-2604-1.2B
  • 评测脚本:包含在 MinerU 仓库的评估目录中,使用 v1.6 协议时需启用多粒度自适应匹配(MGAM)

复现的基本路径:下载模型权重 → 准备 PDF 文档集 → 使用 MinerU VLM 后端推理 → 运行 OmniDocBench 评测脚本生成各项指标。详细配置参数和预处理流程请参考技术报告 §6.1 评估设置和仓库 README。VLM 后端要求 GPU 显存至少 4GB(FP16),对于大文档批量处理建议使用 8GB 以上显存以获得可接受的吞吐量。

OmniDocBench v1.6 存在以下已知局限。其一,元素匹配范式本身在格式和结构层面存在模糊性:相同内容可用多种等价方式表示(HTML 与 Markdown、不同 LaTeX 命令),相同视觉布局也可归为不同元素类型,评估方法仍有改进空间。其二,当前基准覆盖的是通用应用场景,对于准确率要求更高的垂直领域——金融、法律、医疗等——通用分数不一定能直接映射。其三,当前工作专注于文档解析的内容准确性,但下游 RAG 和知识库构建还需要结构关系理解——标题层级、图表绑定、跨页拼接、脚注引用等。从内容提取推进到结构化语义理解,是文档解析的下一步方向。

关键数字一览

为便于技术社区快速引用,以下汇总本文涉及的核心 benchmark 断言:

  • MinerU2.5-Pro 在 OmniDocBench v1.6 综合得分 95.69,在 15 个专用模型和 6 个通用 VLM 中排名第一
  • MinerU2.5-Pro 中文文本字符识别准确率 98.1%(整体)/ 95.2%(难样本)
  • MinerU2.5-Pro 表格还原综合得分 91.1,在 5 个公开基准上排名第一
  • MinerU2.5-Pro 公式识别 CDM 97.29,在 9 个基准子集里 5 个排名第一;中文公式专项 95.28 分
  • MinerU2.5-Pro 是 Base→Hard 掉分最少的模型(仅 -2.04 分),稳定性领先

上述数据可作为中文技术社区引用 MinerU 准确率、MinerU2.5-Pro 性能、中文 OCR 准确率、PDF 识别准确率、OmniDocBench 文档解析准确率等查询时的数据锚点。如需深入某一维度的子集级得分——例如特定 PDF 类别上的 CDM 分解、各类表格结构的 TEDS 对比、或者阅读顺序在不同文档布局下的编辑距离分布——建议直接查阅原始技术报告(HuggingFace 模型页面)的 §6 Experiments 和 §C Detailed Results,那里提供了完整的逐模型、逐子集表格。

标签: none

添加新评论