xiaohack's Blog

xiaohack博客专注前沿科技动态与实用技术干货分享，涵盖 AI 代理、大模型应用、编程工具、文档解析、SEO 实战、自动化部署等内容，提供开源项目教程、科技资讯日报、工具使用指南，助力开发者、AI 爱好者获取前沿技术与实战经验。

写个小测评：AI 处理拍照表格转制式文本的效果（gemini/gpt/ 豆包 / 阶跃 / 千问）

作者: 纯情
时间: 2026-01-21
分类: 网络

省流：这次测试最让我惊喜的是豆包，它已经不只是在 “读图”，而是在 “理解图”。通过逻辑推理发现 OCR 过程中的不合理并自我修正，这种空间推理能力确实走在了前面。

刚好有个工作，同事将一个纸质版表格拍给我（截图君一脸问号？）要转换为一个通知文本。
我太懒了就想让 AI 来完成，然后就发给了 gemini，发现效果有点点问题，就把什么 chatgpt、千问、豆包、阶跃星辰试了一遍。所以有这篇对比（水一贴）
首先是 gemini, 用的是 flash 思考，文字表达比较清晰，但是人数识别有问题，部分单位出现了错位。

接下来用了千问 APP 打开深度思考，文风没问题，人数识别也没问题，但是但是他居然对其中一个单位名字识别出现了幻觉，变成了一个不知道哪来的名字，满分直接变不及格。

刚好阶跃星辰昨天发了个新模型和新工具，想起来他牛逼吹得震天响，就看看他水平，用的是最新的 step3，结果裤子拔掉了，文风有问题，因为我提示词说了是发微信给个人。然后数字也有很多识别错位的情况，比 gemini 多。

然后是豆包，打开思考，唯一满分，有一个很惊艳我的地方，他在输出思考的时候发现识别出来的人数不合理，然后推理出应该是图片方向不对，然后他把图片表格摆正了再识别，最终输出了完全正确的结果。他把图片转置的过程展现了出来，惊艳到我了。唯一有点瑕疵是‘你好～’显得不正式。

最后是老朋友，完全没充值的 chatgpt 网页版，因为没地方选模型，不知道他用了啥。文风没啥问题，数字也没啥问题，但是但是他将 XX 市 XX 区识别成了 XX 市 AA 区，确实是无语。

对于一个主要做办公室工作的人，Vipe Coding 并不能很快改变什么，尤其是老旧的体制机制也没有完成转变，而且实际上并没有那么多单位实现了无纸化数据化办公，对于多模态的需求是非常刚需的存在。
这种细碎的工作使用 AI 辅助其实更能提高幸福感，希望 AI 越来越好，让我成为一个真正的懒汉。

📌 转载信息

来源：
https://linux.do/t/topic/1494230

原作者：
pigbird

转载时间：
2026/1/21 22:15:10

标签: ChatGPT, Gemini, 豆包, OCR, 多模态AI

添加新评论