一项可能彻底改变未来票据、合同、报告等日常文档处理方式的技术突破,正从一家中国AI公司的实验室走向全球开发者的电脑。

模型登顶

智谱AI正式发布并开源专业级OCR模型GLM-OCR。这个模型以仅0.9B的极小参数量,在权威文档解析榜单OmniDocBench V1.5上取得了94.6分的顶尖成绩。

其性能已逼近谷歌的通用大模型Gemini-3-Pro。

OCR作为将图片中的文字转换为可编辑文本的技术,早已应用多年。传统方案常在海量标准印刷文档中表现良好,但面对手写公式、复杂表格、带印章文件或多语言混排的“疑难杂症”时,往往力不从心。

GLM-OCR的出现,专为攻克这些真实业务中的“硬骨头”而来。

性能跃升

GLM-OCR的“小尺寸、高精度”特性背后,是一系列创新技术的有力支撑。

模型采用“编码器-解码器”架构,集成了自研的CogViT视觉编码器。创新性地将多Tokens预测损失引入OCR模型训练,并采用全任务强化学习,显著提升了模型在复杂版式下的识别精度和泛化能力。

更关键的是其 “版面分析→并行识别”的两阶段技术流程

它先理解文档的整体结构布局,再进行精准的文字识别,这使得它处理一份复杂的跨页财务报表时,能像人类一样先看清表格框架,再读取其中的数字。

极致性价比

GLM-OCR的强大不止于精准,更在于其极致的效率和令人震撼的低成本。

在速度上,其处理PDF文档的吞吐量可达每秒1.86页,处理图片可达每秒0.67张,显著优于同类模型。更重要的是其成本控制,通过API调用,价格仅为0.2元/百万Tokens

这意味着,花费1元人民币,理论上可以处理约2000张A4扫描件或200份10页的PDF文档。

相比传统OCR方案,其成本仅为约十分之一,真正将专业级文档解析能力推向了“白菜价”时代。这种极致的性价比,使其不仅能被大型企业采用,也让中小型团队甚至个人开发者用得起专业级的文档处理能力。

场景突破

GLM-OCR针对六大高难度业务场景进行了专项优化,展现出强大的鲁棒性。

复杂表格解析上,它能精准理解合并单元格、多层表头等复杂结构,并直接输出标准HTML代码,无需人工二次制表。

对于手写体与代码,模型能准确识别教育、科研场景中的手写数学公式,以及程序员屏幕截图中的代码,解决了长期存在的痛点。

信息结构化提取方面,它可以从各类发票、身份证、银行卡等卡证票据中,智能提取关键字段,并输出标准的JSON格式数据,无缝对接银行、保险、物流等行业的自动化系统。

模型还具备出色的印章识别多语言混排处理能力。这意味着一份盖有红色公章的中英文混合合同,也能被准确无误地识别和解析。

变革意义

GLM-OCR的意义远不止发布一个性能优异的模型。

开源策略,意味着完整的SDK与推理工具链已向全球开发者开放。任何人都可以下载、使用并根据自身需求进行调整,这极大加速了技术的普及和创新应用的诞生。

其次,它对检索增强生成(RAG) 等前沿AI应用提供了坚实基础。RAG系统依赖高质量的结构化文档数据,而GLM-OCR高精度的识别能力和规整的Markdown/JSON输出格式,正为此提供了理想的数据底座。

从行业影响看,金融、政务、教育、物流、保险等领域将率先受益。银行无需再雇佣大量人力手动录入票据信息,学校可以快速数字化海量的历史手写试卷,物流公司能自动处理成千上万的运单。

一个高效率、低成本的智能文档处理时代,随着GLM-OCR的开源正在加速到来。

边缘部署

智谱官方还特别强调,GLM-OCR非常适合高并发及边缘计算场景。

它支持vLLM、SGLang和Ollama等主流推理框架部署,显著降低了部署门槛和算力开销。这意味着企业可以在自己的服务器上,甚至是在靠近数据源的边缘设备上高效运行该模型,无需将所有敏感文档上传至云端,更好地保障了数据安全和隐私

例如,一家医院可以在内部服务器上部署GLM-OCR,直接处理患者的病历和检查报告,既满足了效率需求,又严格遵守了医疗数据的安全规定。


智谱AI宣布未来将持续迭代GLM-OCR,计划推出更多尺寸版本,并将能力拓展至更多语种及视频OCR领域。当1元钱可以处理2000页文档时,全社会信息数字化最后一公里的障碍正被技术的力量迅速推平。

标签: none

添加新评论