【开源模型】分享自己训练的端到端文档处理轻量模型 DocLoom
WiNGPT-DocLoom 开源模型来袭!开源地址winninghealth/WiNGPT-DocLoom · Hugging Face
这款模型处理复杂 PDF 的多列、长文本、页眉页脚等场景都很亮眼,还针对医疗领域 PDF 处理做了性能增强~
它基于 Qwen3-VL 架构优化,支持 Transformers 和 vLLM 多种使用方式,单脚本就能高效处理多页 PDF,轻量化实现 PDF 结构化文本提取,能精准保留章节层级、表格、公式等关键结构信息。
在 olmOCR-Bench 上的综合得分达到了 78.8,超过 MinerU 等一众方案和基础模型。
测试结果如下:
| Arxiv | Old scans math | Tables | Old scans | Headers and footers | Multi columnn | Long tiny text | Base | Overall | ||
|---|---|---|---|---|---|---|---|---|---|---|
| Marker 1.10.1 | -- | 83.8 | 66.8 | 72.9 | 33.5 | 86.6 | 80 | 85.7 | 99.3 | 76.1±1.1 |
| MinerU 2.5.4 | -- | 76.6 | 54.6 | 84.9 | 33.7 | 96.6 | 78.2 | 83.5 | 93.7 | 75.2±1.1 |
| DeepSeek-OCR | -- | 77.2 | 73.6 | 80.2 | 33.3 | 96.1 | 66.4 | 79.4 | 99.8 | 75.7±1.0 |
| Nanonts-OCR2-3B | 3B | 75.4 | 46.1 | 86.8 | 40.9 | 32.1 | 81.9 | 93 | 99.6 | 69.5±1.1 |
| Mistral OCR | -- | 77.2 | 67.5 | 60.6 | 29.3 | 93.6 | 71.3 | 77.1 | 99.4 | 72.0±1.1 |
| MonkeyOCR-pro-3B | 3B | 83.8 | 68.8 | 74.6 | 36.1 | 91.2 | 76.6 | 80.1 | 95.3 | 75.8±1.0 |
| Qwen3-VL-4B-Instruct | 4B | 83.1 | 74.5 | 83.9 | 40.5 | 35.5 | 81.7 | 88.7 | 99.3 | 73.4±1.0 |
| olmOCR pipeline v0.4.0 | 7B | 82.9 | 82.1 | 84.3 | 48.3 | 95.7 | 84.3 | 81.4 | 99.7 | 82.3±1.1 |
| DocLoom | 4B | 74.3 | 66.6 | 80.9 | 45.1 | 91.4 | 82.9 | 89.1 | 99.7 | 78.8±1.0 |
使用很简单,用 vllm 进行部署,用我们提供的脚本进行测试
python DocLoom_test.py <pdf_file_path>做文档解析、信息检索、数据挖掘的佬们这款工具值得一试!
评论区(暂无评论)