最近在看一些日文漫画和海外 webtoon 的时候,发现一个比较麻烦的问题:
图片里的文字很难直接翻译。

普通翻译工具基本都是针对纯文本的,但漫画、截图、气泡对话这些内容:

文字不可复制

字体复杂

竖排/混排较多

还有多语言混在一起

后来自己做了一个小工具,主要是把「 OCR + 翻译」流程简化到一步完成,适配漫画和图片场景。

大致流程其实不复杂:

图像文字检测(气泡/区域)

OCR 提取文本

自动语言识别

再走翻译模型处理短句对话

实际测试下来,发现一个有意思的点:
在这种场景下,OCR 准确率反而比翻译模型更关键,因为漫画字体和排版干扰很大。

目前这个工具主要用来:

看外语漫画/生肉

翻译截图里的文字

一些图片型内容快速理解

做成了一个简单的在线版本,省去本地部署和复杂配置:
https://aimangatranslate.com

不是做通用翻译的,更偏图片文本场景,所以适用面会比较垂直。

如果有做过 OCR 或多语言处理的 v 友,也挺好奇你们在复杂排版场景下是怎么提升识别稳定性的。

标签: none

添加新评论