WiNGPT-DocLoom 开源模型来袭!开源地址winninghealth/WiNGPT-DocLoom · Hugging Face

这款模型处理复杂 PDF 的多列、长文本、页眉页脚等场景都很亮眼,还针对医疗领域 PDF 处理做了性能增强~

它基于 Qwen3-VL 架构优化,支持 Transformers 和 vLLM 多种使用方式,单脚本就能高效处理多页 PDF,轻量化实现 PDF 结构化文本提取,能精准保留章节层级、表格、公式等关键结构信息。

在 olmOCR-Bench 上的综合得分达到了 78.8,超过 MinerU 等一众方案和基础模型。

测试结果如下:

ArxivOld scans mathTablesOld scansHeaders and footersMulti columnnLong tiny textBaseOverall
Marker 1.10.1--83.866.872.933.586.68085.799.376.1±1.1
MinerU 2.5.4--76.654.684.933.796.678.283.593.775.2±1.1
DeepSeek-OCR--77.273.680.233.396.166.479.499.875.7±1.0
Nanonts-OCR2-3B3B75.446.186.840.932.181.99399.669.5±1.1
Mistral OCR--77.267.560.629.393.671.377.199.472.0±1.1
MonkeyOCR-pro-3B3B83.868.874.636.191.276.680.195.375.8±1.0
Qwen3-VL-4B-Instruct4B83.174.583.940.535.581.788.799.373.4±1.0
olmOCR pipeline v0.4.07B82.982.184.348.395.784.381.499.782.3±1.1
DocLoom4B74.366.680.945.191.482.989.199.778.8±1.0

使用很简单,用 vllm 进行部署,用我们提供的脚本进行测试

python DocLoom_test.py <pdf_file_path>

做文档解析、信息检索、数据挖掘的佬们这款工具值得一试!


📌 转载信息
原作者:
paulcx
转载时间:
2026/1/1 15:36:37