省流:这次测试最让我惊喜的是豆包,它已经不只是在 “读图”,而是在 “理解图”。通过逻辑推理发现 OCR 过程中的不合理并自我修正,这种空间推理能力确实走在了前面。


刚好有个工作,同事将一个纸质版表格拍给我(截图君一脸问号?)要转换为一个通知文本。
我太懒了就想让 AI 来完成,然后就发给了 gemini,发现效果有点点问题,就把什么 chatgpt、千问、豆包、阶跃星辰试了一遍。所以有这篇对比(水一贴)
首先是 gemini, 用的是 flash 思考,文字表达比较清晰,但是人数识别有问题,部分单位出现了错位。


接下来用了千问 APP 打开深度思考,文风没问题,人数识别也没问题,但是但是他居然对其中一个单位名字识别出现了幻觉,变成了一个不知道哪来的名字,满分直接变不及格。


刚好阶跃星辰昨天发了个新模型和新工具,想起来他牛逼吹得震天响,就看看他水平,用的是最新的 step3,结果裤子拔掉了,文风有问题,因为我提示词说了是发微信给个人。然后数字也有很多识别错位的情况,比 gemini 多。


然后是豆包,打开思考,唯一满分,有一个很惊艳我的地方,他在输出思考的时候发现识别出来的人数不合理,然后推理出应该是图片方向不对,然后他把图片表格摆正了再识别,最终输出了完全正确的结果。他把图片转置的过程展现了出来,惊艳到我了。唯一有点瑕疵是‘你好~’显得不正式。


最后是老朋友,完全没充值的 chatgpt 网页版,因为没地方选模型,不知道他用了啥。文风没啥问题,数字也没啥问题,但是但是他将 XX 市 XX 区识别成了 XX 市 AA 区,确实是无语。

对于一个主要做办公室工作的人,Vipe Coding 并不能很快改变什么,尤其是老旧的体制机制也没有完成转变,而且实际上并没有那么多单位实现了无纸化数据化办公,对于多模态的需求是非常刚需的存在。
这种细碎的工作使用 AI 辅助其实更能提高幸福感,希望 AI 越来越好,让我成为一个真正的懒汉。


📌 转载信息
原作者:
pigbird
转载时间:
2026/1/21 22:15:10

标签: ChatGPT, Gemini, 豆包, OCR, 多模态AI

添加新评论