智谱开源GLM-OCR：0.9B小模型登顶权威榜，成本低至1/10

一项可能彻底改变未来票据、合同、报告等日常文档处理方式的技术突破，正从一家中国AI公司的实验室走向全球开发者的电脑。

智谱AI正式发布并开源专业级OCR模型GLM-OCR。这个模型以仅0.9B的极小参数量，在权威文档解析榜单OmniDocBench V1.5上取得了94.6分的顶尖成绩。

其性能已逼近谷歌的通用大模型Gemini-3-Pro。

OCR作为将图片中的文字转换为可编辑文本的技术，早已应用多年。传统方案常在海量标准印刷文档中表现良好，但面对手写公式、复杂表格、带印章文件或多语言混排的“疑难杂症”时，往往力不从心。

GLM-OCR的出现，专为攻克这些真实业务中的“硬骨头”而来。

GLM-OCR的“小尺寸、高精度”特性背后，是一系列创新技术的有力支撑。

模型采用“编码器-解码器”架构，集成了自研的CogViT视觉编码器。创新性地将多Tokens预测损失引入OCR模型训练，并采用全任务强化学习，显著提升了模型在复杂版式下的识别精度和泛化能力。

更关键的是其 “版面分析→并行识别”的两阶段技术流程。

它先理解文档的整体结构布局，再进行精准的文字识别，这使得它处理一份复杂的跨页财务报表时，能像人类一样先看清表格框架，再读取其中的数字。

GLM-OCR的强大不止于精准，更在于其极致的效率和令人震撼的低成本。

在速度上，其处理PDF文档的吞吐量可达每秒1.86页，处理图片可达每秒0.67张，显著优于同类模型。更重要的是其成本控制，通过API调用，价格仅为0.2元/百万Tokens。

这意味着，花费1元人民币，理论上可以处理约2000张A4扫描件或200份10页的PDF文档。

相比传统OCR方案，其成本仅为约十分之一，真正将专业级文档解析能力推向了“白菜价”时代。这种极致的性价比，使其不仅能被大型企业采用，也让中小型团队甚至个人开发者用得起专业级的文档处理能力。

GLM-OCR针对六大高难度业务场景进行了专项优化，展现出强大的鲁棒性。

在复杂表格解析上，它能精准理解合并单元格、多层表头等复杂结构，并直接输出标准HTML代码，无需人工二次制表。

对于手写体与代码，模型能准确识别教育、科研场景中的手写数学公式，以及程序员屏幕截图中的代码，解决了长期存在的痛点。

在信息结构化提取方面，它可以从各类发票、身份证、银行卡等卡证票据中，智能提取关键字段，并输出标准的JSON格式数据，无缝对接银行、保险、物流等行业的自动化系统。

模型还具备出色的印章识别与多语言混排处理能力。这意味着一份盖有红色公章的中英文混合合同，也能被准确无误地识别和解析。

GLM-OCR的意义远不止发布一个性能优异的模型。

其开源策略，意味着完整的SDK与推理工具链已向全球开发者开放。任何人都可以下载、使用并根据自身需求进行调整，这极大加速了技术的普及和创新应用的诞生。

其次，它对检索增强生成（RAG） 等前沿AI应用提供了坚实基础。RAG系统依赖高质量的结构化文档数据，而GLM-OCR高精度的识别能力和规整的Markdown/JSON输出格式，正为此提供了理想的数据底座。

从行业影响看，金融、政务、教育、物流、保险等领域将率先受益。银行无需再雇佣大量人力手动录入票据信息，学校可以快速数字化海量的历史手写试卷，物流公司能自动处理成千上万的运单。

一个高效率、低成本的智能文档处理时代，随着GLM-OCR的开源正在加速到来。

智谱官方还特别强调，GLM-OCR非常适合高并发及边缘计算场景。

它支持vLLM、SGLang和Ollama等主流推理框架部署，显著降低了部署门槛和算力开销。这意味着企业可以在自己的服务器上，甚至是在靠近数据源的边缘设备上高效运行该模型，无需将所有敏感文档上传至云端，更好地保障了数据安全和隐私。

例如，一家医院可以在内部服务器上部署GLM-OCR，直接处理患者的病历和检查报告，既满足了效率需求，又严格遵守了医疗数据的安全规定。

智谱AI宣布未来将持续迭代GLM-OCR，计划推出更多尺寸版本，并将能力拓展至更多语种及视频OCR领域。当1元钱可以处理2000页文档时，全社会信息数字化最后一公里的障碍正被技术的力量迅速推平。