标签 OCR 下的文章

1 月 29 日,百度正式发布并开源新一代文档解析模型 PaddleOCR-VL-1.5。该模型以仅 0.9B 参数的轻量架构,在全球权威文档解析评测榜单 OmniDocBench V1.5 中取得全球综合性能第一成绩,整体精度达到 94.5%,超过 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2 等模型。



值得关注的是,PaddleOCR-VL-1.5 全球首次实现 OCR 模型的“异形框定位”能力,使机器能够精准识别倾斜、弯折、拍照畸变等非规则文档形态,首次让“歪文档”实现稳定、可规模化解析。该技术解决了传统 OCR 模型在移动拍照、扫描件变形、复杂光照等真实场景中因文档形变导致的识别失败问题,可广泛应用于金融票据处理、档案数字化、政务文档流转等场景。



PaddleOCR-VL-1.5 基于文心大模型进行开发,在 OmniDocBench V1.5 多个关键指标上取得领先表现。其中,表格结构理解(92.8 分)和阅读顺序预测(95.8 分)两项核心指标上均位列第一,分别领先 Gemini-3-Pro、DeepSeek-OCR 等主流模型 2–5 分不等。在文档阅读顺序预测任务中,其版面逻辑解析错误率仅为同类其他模型约一半。这表明,PaddleOCR-VL-1.5 在复杂文档结构还原与版面逻辑理解方面具备更高稳定性,在合同、财报等高复杂度业务场景中拥有更高可用性。

在线使用/API:https://www.paddleocr.com

开源项目地址:https://github.com/PaddlePaddle/PaddleOCR

模型下载地址:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5

 

2025 年 10 月 16 日,百度首次发布并开源 PaddleOCR-VL 模型,在 OmniDocBench V1.5 榜单中取得全球 SOTA 成绩,并连续五天登顶 HuggingFace 全球模型总趋势榜与 ModelScope 全球模型总趋势榜双榜第一。



相比于上代,在功能层面,PaddleOCR-VL-1.5 进一步集成印章识别、文本检测与识别等任务能力,关键指标持续领跑;同时针对特殊场景与多语种识别进行系统优化,在生僻字、古籍文献、多语种表格、下划线与复选框等复杂结构识别方面显著提升,并新增对藏语、孟加拉语等语种的支持。模型还支持跨页表格自动合并与跨页段落标题识别,有效解决长文档解析中的结构断裂问题。



近半年来,全球主流模型厂商密集布局 OCR 领域。1 月 27 日,深度求索发布新一代 OCR 模型 DeepSeek-OCR-2,引入“因果流查询”机制,并将语言模型融入视觉编码,在 OmniDocBench V1.5 中实现 91.09%精度。与此同时,Mistral AI、字节跳动、腾讯等企业也相继推出新一代 OCR 模型,行业竞争持续加剧。

·

阿里半夜刚发完旗舰模型,这边 DeepSeek 坐不住了,突然发布更新了。

 

刚刚,DeepSeek 发布了 新模型 DeepSeek-OCR 2,采用创新的 DeepEncoder V2 方法,让 AI 能够根据图像的含义动态重排图像的各个部分,更接近人类的视觉编码逻辑。在具体实现上,DeepSeek 团队在论文中称采用了 Qwen2-0.5B 来实例化这一架构。

 

如果说去年 10 月 DeepSeek-OCR 的发布,让行业第一次意识到“视觉压缩”可能是一条被严重低估的技术路线,那么现在,DeepSeek 显然决定把这条路走得更激进一些。

 

DeepSeek-OCR 2 有何不同?

 

在传统 OCR 体系中,无论是经典的字符检测—识别流水线,还是近年来多模态模型中的视觉编码模块,本质上都遵循同一种思路:对图像进行均匀、规则的扫描和编码,再将结果交给语言模型或后续模块处理。

 

这种方式的问题在于,它并不关心“哪些视觉区域真正重要”。

 

DeepSeek-OCR 1 之所以在当时引发讨论,正是因为它将 OCR 看作一种视觉压缩问题:不是尽可能多地保留像素信息,而是将视觉内容压缩成更有利于语言模型理解的中间表示。

 

而在 DeepSeek-OCR 2 中,这一思路被进一步推进。

 

根据技术报告,DeepEncoder V2 不再将视觉编码视为一次静态的、固定策略的扫描过程,而是引入了语义驱动的动态编码机制。模型会在编码阶段就开始判断哪些区域更可能承载关键信息,并据此调整视觉 token 的分配与表达方式。

 

换句话说,视觉编码不再只是“预处理”,而是已经提前进入了“理解阶段”。

 

和 DeepSeek 过往几乎所有重要发布一样,这一次依然选择了模型、代码与技术报告同时开源。项目、论文和模型权重已同步上线:

 

项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2

论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

在外部监管要求不断细化、内部规范持续完善的背景下,企业运营中的制度严谨性与流程闭环能力,正持续接受系统性检验。北京中烟创新科技有限公司(简称:中烟创新)研发的“企业合规审查AI助手”,为企业提供了一条以技术驱动管理跃迁的路径。将分散的法规条款与内部制度转化为结构化、可运算的知识体系,从而实现对制度合规性、一致性、严谨性与完整性的系统性、自动化审查。并且,AI助手直接提供清晰的审核结论与修改依据,将审查工作从定性判断推向精准的条款对标,使合规要求得以更准确、更高效地嵌入企业运营的每一个环节。

AI助手的核心创新在于构建了一个企业合规知识中枢,将分散的法律法规、监管要求、行业标准和企业内部制度整合为结构化、可计算的知识体系。这个知识中枢不仅是静态的数据库,更是具备理解和推理能力的智能系统,能够理解制度文本的语义内涵,识别潜在合规风险,并提供精准的修改建议。在数据基础层,OCR+NLP技术协同工作,将多源异构的制度文档精准转化为结构化、可计算的数据,构建起AI助手赖以运行的知识库底座。

在智能分析层,知识图谱建立了法规与制度间的语义关联网络,RAG框架则实时检索关联条款作为证据,确保分析结果具有权威依据。在决策输出层,通过精心设计的提示词引导大模型进行合规推理,最终生成具有明确法规依据的专业审核结论,形成从数据处理到智能决策的完整闭环。与传统审查工具不同,中烟创新AI助手直接指出具体问题所在,提供明确的修改方向和依据来源。

例如,当审查一个采购管理制度时,AI助手不会简单标注“存在合规风险”,而是明确指出“第八条第三款关于供应商选择标准的规定,与《政府采购法实施条例》第二十一条要求不一致,建议增加公平竞争条款”,并直接链接到相关法规原文,使审查结果更具操作性和权威性。

企业合规审查AI助手围绕四个核心维度,构建了全方位的合规审查能力:条款合规性审查通过将制度条款与法律法规数据库进行智能比对,识别可能存在的合规冲突。不仅能够识别显性的文字冲突,还能理解条款背后的监管意图,发现更隐蔽的合规风险。例如,即使制度文本中未直接使用被禁止的表述,但如果其实质效果违反了监管原则,AI助手也能识别并提出警示。制度一致性审查关注企业内部制度体系的协调统,大型企业往往有数百甚至上千项制度文件,这些文件之间可能存在交叉、重复甚至矛盾的情况。

AI助手通过构建企业内部制度知识图谱,揭示不同制度之间的关联性和潜在冲突,确保企业制度体系的内在一致性。流程完整性审查深入到业务流程的设计逻辑,基于预置的流程模型和风险管理框架,检查制度中的流程设计是否存在缺失环节、权责不清或控制不足等问题。

例如,在审查一个投资管理制度时,AI助手会检查是否包含了必要的风险评估、决策审批、投后管理等环节,确保流程设计的完整性和有效性。文本严谨性审查则关注制度文本本身的质量,识别模糊表述、逻辑矛盾、定义不一致等问题。制度文本的严谨性直接影响到执行效果,模糊的表述可能导致不同理解,进而引发执行偏差甚至法律纠纷。

AI助手通过深度学习模型,能够识别出“视情况而定”、“原则上”等模糊表述,并建议更加明确、可操作的替代方案。审查流程结束后,AI助手生成一份结构化智能报告,直接定位问题条款并提供完整解决方案。报告核心包含审查总结与详细审核结果:总结部分概括制度在合规性、一致性等方面的整体评价。审核结果则对每处问题进行条款级精准定位,明确风险性质,用户点击依据链接,可查看该法规的完整沿革记录,清晰展现其制定、修订与废止的历史轨迹,帮助用户理解监管要求的演变逻辑与当前条款的适用背景。

用户可一键采纳修订建议,自动更新文本,也可通过智能定位功能快速对照原文与修改建议,进行人工微调。所有操作留痕,形成从智能审查、精准修订到版本管理的合规诊断与修复的闭环工作流。企业合规审查AI助手的实际应用,从直接效果来看,AI助手的应用使合规审查效率提升了80%以上,原本需要数周完成的全面制度审查,现在可以在几天内完成,审查的准确性和一致性也大幅提高。

AI助手使合规审查从周期性活动转变为持续过程,企业可以随时对新制度草案进行审查,也可以定期对现有制度进行复审,确保制度体系始终与最新的监管要求保持一致。

同时,促进了企业合规管理的标准化和透明化,所有的审查过程都有完整记录,审查依据和逻辑清晰可查。企业合规审查AI助手的价值,在于让企业以前所未有的效率与精度,将合规要求无缝嵌入运营流程,从而在复杂环境中构建起确定性的核心竞争力——让风险可控,让运营可信,让增长可持续.

36ecf4845e41c9282eecdb5b690cc65b_6390495865593148019638243.png

在金融科技(FinTech)进入 2026 年的今天,数字化转型已步入“无人区”。随着生成式 AI 与大模型在金融业务场景的广泛落地,金融软件系统的架构正经历从“云原生”向“AI 原生”的范式跃迁。然而,架构越先进,质量保障(QA)的压力就越大。传统的测试手段在面对微服务交织、逻辑动态变幻的金融交易系统时,日益显现出“力不从心”的疲态。

1月19日,这一局面迎来重要里程碑。由中国信通院、中国人工智能产业发展联盟(AIIA)牵头,联合 Testin云测、中国工商银行、国泰君安证券、海通证券等头部金融与技术机构共同编制的《面向软件工程的智能体技术和应用要求 第3部分:测试智能体》(以下简称《规范》)正式发布。这不仅是一份技术文件,更是金融行业在 AI 时代守住安全红线的“数字化白皮书”。

行业深蹲:金融软件质控的三大“效能黑洞”

长期以来,金融机构的研发效能被三个核心痛点紧紧拽住。

首先是高频迭代与回归压力的矛盾。在互联网金融产品竞争白热化的当下,某股份制银行的 App 每周更新频率甚至达到“一周三版”。传统的自动化测试依赖人工维护脚本,往往新功能还没测完,UI 布局又改了,导致脚本大面积报废。

其次是业务逻辑的深度耦合。金融交易链路长、涉及私有协议多,AI 辅助工具若不理解“贷款审批”或“清算对账”的领域上下文,生成的测试案例往往流于表面,无法触达深层逻辑漏洞。

最后是合规与容错率的极低门槛。金融系统一旦在生产环境出现 Bug,面临的是公关危机、监管处罚乃至经济损失。

技术破局:Testin云测如何重塑“智测大脑”?

作为本次《规范》的核心参编单位,Testin云测凭借连续多年深耕 AI 测试的经验,其技术实力在最新公布的“2025 AI 测试服务商”榜单中荣登榜首。其核心产品 Testin XAgent 成为金融企业破局的关键。

  1. 深度语义理解与 RAG 知识注入 传统的 AI 工具容易产生“幻觉”,这对追求绝对精确的金融业是致命的。Testin XAgent 引入了 RAG(检索增强生成)技术,将银行内部沉淀的 PRD 文档、接口规范、历史缺陷报告等私有知识进行向量化。这意味着,当测试人员输入“测试大额存单申购流程”时,AI 能够自动联想相关的限额逻辑、风控规则,生成的测试案例采纳率高达 60% 以上,实现了真正的“懂行测试”。
  2. 视觉自愈引擎攻克 UI 频繁变更 针对 UI 自动化的“脚本易碎”问题,Testin XAgent 率先将视觉大模型(VLM)与 OCR 技术融合。它赋予了智能体像人眼一样的感知力,不再机械地识别控件 ID。在实际应用中,即使 App 界面改版,智能体也能通过逻辑关联自动“认路”,将脚本稳定性拉升至 95% 以上。
  3. 跨平台的高精度闭环 金融 App 必须兼容上千款移动终端。Testin云测通过云端真机实验实验室,配合 AI 智能诊断功能,将原本需要人工排查 30 分钟的错误缩短至 5 分钟。在某大型股份制银行的实践中,回归测试周期从数周缩短至数天,业务场景覆盖率提升了 300%。

趋势洞察:从“成本中心”向“价值中心”的跃迁

《规范》明确了测试智能体需具备感知、记忆、规划、执行四大核心能力。这标志着测试工作正从人力密集型向机器智能驱动转变。

Testin云测 CEO 徐琨曾指出:“软件质量已成为数字经济时代的关键生产力。”对于金融机构而言,测试智能体不仅是省钱的工具,更是构建“数字免疫系统”的核心。通过 AI 的闭环反馈,企业能提前预判风险,将“事后发现”转变为“事前预防”。

随着标准化与智能化的同频共振,以 Testin云测为代表的领军厂商,正在 AI4SE 的新纪元中,助力金融科技夯实数字基石,催生出更具韧性、更敏捷的未来。

一、引言:为什么选择TextIn与Coze搭建财报机器人?

面对季度、年度财报堆叠如山的PDF文档,技术团队如何快速、准确地将其中复杂的表格数据转化为结构化信息?本文将介绍一种高效实践方案:利用TextIn的智能文档解析能力,结合Coze的自动化工作流编排,快速构建一个能够处理多格式财报、抽取关键表格的自动化流程。

1.1 财报文档的典型难点

财报处理长期存在几大核心难点:

1.表格结构复杂:资产负债表、利润表等核心表格常存在跨页、续表情况,且合并报表与母公司报表两套体系并存,单元格合并频繁,对程序的结构化识别构成首要挑战。

2.文档格式多样:资料库中通常是电子PDF与扫描件图像混合共存,要求解决方案同时具备强大的文本解析与OCR版面分析能力。

3.手工处理成本高昂:三大表及附注的手动复制、粘贴、核对工作极其耗时,且容易出错,难以满足及时性、准确性要求。

1.2 TextIn+Coze方案的核心价值

本方案采用清晰的分工架构,将复杂问题模块化:

TextIn xParse引擎负责“读懂”文档:其强大的版面分析与表格识别技术,能统一处理电子PDF与扫描件,将混乱的原始文档转换为包含完整表格结构、段落标题的清晰JSON数据,为下游提取提供高质量的结构化输入。
Coze工作流负责“串联”自动化流程:可自动化编排“文件上传→调用TextIn解析→定位并抽取目标表格→输出至数据库/Excel”的完整管道。
Coze Bot 提供交互层:可构建一个对话机器人,不仅支持触发自动化流程,更能基于抽取出的数据,提供报表摘要、关键指标对比、甚至问答解释,让数据结果可直接被业务人员使用。

这种组合将专业的文档解析、灵活的业务逻辑编排与友好的交互界面相结合,使开发者能聚焦于核心的抽取规则,快速搭建从原始文档到业务可用数据的端到端流水线。

二、方案应用速览

工作流:

图片

输出结果:

图片

三、架构设计

3.1 总体链路

用户上传财报 → Coze触发工作流 → xParse → 代码节点抽取 → 输出结构化tables


图片

开始节点:接收用户上传的财报文件(File)。
TextIn插件节点:将财报解析为结构化JSON,核心使用result.detail(包含paragraph/table/image等元素)以及result.markdown。
代码节点:仅遍历detail,通过“表标题 → 后续表格”方式抽取三大表,并统一输出为tables{balanceSheet,incomeStatement,cashFlow}。
结束节点:将tables / debug / markdown输出给Bot,用于展示与后续问答分析。

3.2 数据结构约定

TextIn xParse - 插件节点的输出(result.detail / result.markdown等,详情见TextIn xParse API文档:https://docs.textin.com/xparse/parse-getjson

Response
├─ code                               # 接口状态码
├─ message                            # 状态信息
└─ result
   ├─ markdown                         # 文档级 Markdown
   └─ detail[]                         # 元素明细数组(只处理 type=table)
      └─ (仅当 item.type == "table" 时关注)
         ├─ type                        # 固定为 "table"(表格块)
         ├─ sub_type                    # "bordered"(有线) / "borderless"(无线)
         ├─ page_id                     # 表格所在页(续表拼接用)
         ├─ paragraph_id                # 表格元素ID(续表拼接用)
         ├─ rows                        # 表格行数
         ├─ cols                        # 表格列数
         ├─ text                        # 表格整体文本(md/html;展示用,抽字段优先 cells)
         ├─ continue?                   # 是否跨页/跨段续表(可选字段)
         └─ cells[]                     # 单元格数组(抽取字段核心)
            ├─ row                       # 行号(从0开始)
            ├─ col                       # 列号(从0开始)
            ├─ row_span?                 # 行合并跨度(默认1)
            ├─ col_span?                 # 列合并跨度(默认1)
            └─ text                      # 单元格文本(字段值通常从这里拿)

TextIn的返回结果中对表格块(type=table)的两种常见数据形态(务必兼容)

形态 A:HTML/Markdown 表格(最常见于工作流插件输出)


    抽取方式:解析text→ 转二维矩阵(headers/rows)
    item.text内包含<table>...</table>(或Markdown table)
    item.type == "table"


形态 B:单元格数组cells(部分接口/参数下提供)

    item.cells[]存在,包含row/col/text等
    抽取方式:优先用cells拼matrix(更结构化),不存在再回退到解析tex






财务三大表抽取 - 代码节点的输出示例(tables)
tables.balanceSheet / incomeStatement / cashFlow均为数组,设计理由如下:

同一份财报可能包含“合并 + 母公司”两套表;
或者出现“(续)”导致一张表被拆成多段;
因此用数组承载多张/多段表更稳妥,业务侧可按title/page_id再做合并与筛选。

tables

{
    "balanceSheet": [
        {
            "headers": [
                "项 目",
                "附注",
                "2025 年6 月30 日",
                "2024 年12 月31 日"
            ],
            "page_id": [
                2
            ],
            "rows": [
                [
                    "流动资产:",
                    "",
                    "-",
                    "-"
                ],
            ],
            "title": "合并资产负债表"
        },
 
 
    ],
    "incomeStatement": [
        {
            "headers": [
                "项 目",
                "附注",
                "2025 年1-6 月",
                "2024 年1-6 月"
            ],
            "page_id": [
                4
            ],
            "rows": [
                [
                    "一、营业总收入",
                    "",
                    "88,095,798,091.41",
                    "85,336,441,428.97"
                ],
            ],
            "title": "母公司利润表"
        }
    ],
    "cashFlow": [
        {
            "headers": [
                "项 目",
                "附注",
                "2025 年1-6 月",
                "2024 年1-6 月"
            ],
            "page_id": [
                5
            ],
            "rows": [
                [
                    "一、经营活动产生的现金流量;",
                    "",
                    "-",
                    "-"
                ],
            ],
            "title": "母公司现金流量表"
        }
    ]
}

Debug

"debug": {
  "detailLen": 823,
  "titleCandidates": 6,
  "hitTitles": [
    {"idx": 120, "page_id": 2, "title": "合并资产负债表"},
    {"idx": 260, "page_id": 4, "title": "母公司利润表"}
  ],
  "picked": [
    {"titleIdx": 120, "tableIdx": 125, "tableType": "balanceSheet"},
    {"titleIdx": 260, "tableIdx": 268, "tableType": "incomeStatement"}
  ],
  "tableBlocks": 12
}

3.3 关键设计点(财报专属)

标题命中策略(table_title + 关键词)
标题长度阈值(>20 跳过):避免长文档中出现“包含关键词的长句”被误判为表标题,从而误抽无关表格。
只认sub_type=table_title:优先使用版面分析识别到的“表格标题”元素,减少正文段落(header/text)误命中概率。

const TITLE_PATTERNS = {
  balanceSheet: ["资产负债表", "合并资产负债表", "母公司资产负债表"],
  incomeStatement: ["利润表", "合并利润表", "母公司利润表", "损益表", "收益表"],
  cashFlow: ["现金流量表", "合并现金流量表", "母公司现金流量表", "现金流量"],
};

function normalizeTitle(s) {
  return String(s || "")
    .replace(/\*\*/g, "")
    .replace(/[\s ]/g, "")
    .replace(/[《》]/g, "");
}
function matchType(norm) {
  for (const [k, kws] of Object.entries(TITLE_PATTERNS)) {
    if (kws.some(kw => norm.includes(kw))) return k;
  }
  return null;
}

function extractFromDetail(detail) {
  const tables = { balanceSheet: [], incomeStatement: [], cashFlow: [] };
  const debug = { hitTitles: [], picked: [], tableBlocks: 0, titleCandidates: 0 };

  for (let i = 0; i < detail.length; i++) {
    const item = detail[i];
    if (!item || typeof item !== "object") continue;

    const rawTitle = String(item.text || "");
    const title = normalizeTitle(rawTitle);

    // ✅ 简单校验:标题长度太长跳过
    if (title.length > 20) continue;

    // ✅ 查询TextIn接口返回数据中的表格标题,避免正文误命中
    if (String(item.sub_type || "").toLowerCase() !== "table_title") continue;

    const ttype = matchType(title);
    if (!ttype) continue;

四、准备工作

TextIn 开发者信息(x-ti-app-id / secret_code)

图片

在TextIn控制台(https://www.textin.com/)「开发者信息」中获取x-ti-app-id与x-ti-secret-code(下文统称 app_id/secret_code)。
建议在Coze工作流里把鉴权参数作为开始节点输入传入(便于不同环境切换),或在团队内部用变量/密钥管理统一配置。

五、工作流搭建

5.1 创建工作流

工作流命名、描述、版本说明
图片

5.2 开始节点配置

Input类型:File(接收上传文件)

图片

5.3 添加 xParse插件节点

输入映射:file → Input.file
鉴权配置:x_ti_app_id / x_ti_secret_code
输出字段说明:result.detail / result.markdown 等,输出重点使用:ParseX.result(作为代码节点输入),其中result.detail是抽表主数据源。


图片

5.4 添加代码节点(核心)

输入变量配置 (选择ParseX.result)

图片

代码职责:遍历detail→找table_title→找后续table→HTML转二维矩阵→输出 tables(代码节点源码附在文章最末尾)

图片

输出结构:tables{balanceSheet,incomeStatement,cashFlow} +debug

5.5 结束节点输出

输出给Agent:tables / markdown / debug

六、不止于抽取:更多自动化扩展方向

财报抽取机器人是一个高效的起点,接下来,基于TextIn提供的精准结构化数据与Coze灵活的工作流,还可以轻松延伸出更多智能化的数据处理能力:

续表自动合并:财报中经常存在大型表格跨页,可在工作流中添加逻辑节点,按title相同且表头一致合并 rows,并合并 page_id,彻底解决数据割裂问题。
表内锚点词校验:为确保抽取表格的完整性与正确性,可设计自动校验规则。例如,检查资产负债表中是否同时存在“流动资产”/“资产总计”科目;验证利润表是否包含“营业收入”/“净利润”;确认现金流量表是否包含“经营活动”。这一步能有效拦截因解析页面错误或文档版本差异导致的重大数据缺失。
结构化导出至Excel:将最终整理的tables列表,通过添加代码节点或Coze插件,转换为更通用的CSV或XLSX格式文件。这能让财务、业务部门的同事无缝接手,直接在Excel环境中进行后续分析与可视化。
实现智能多期对比:将工作流升级为可接收两份财报,分别提取后,系统能根据标准化的会计科目名称自动对齐数据,计算关键项目的同比、环比变化,并可由集成的LLM输出差异分析简报。

通过TextIn与Coze的组合,我们完成了从杂乱文档到结构化数据,再到可交互、可扩展的业务工具的完整路径,构建了一个可靠、可重复、且持续进化的数据流水线。无论是应对合规检查,还是满足定期的经营分析,这个财报机器人都能成为你技术工具箱中一个反应迅速、值得信赖的数字化助手。
现在,是时候告别手动处理的繁琐与不确定,让你的数据工作流真正“智能”起来。

七、附:代码节点源码

下载链接:https://dllf.textin.com/download/2026/CustomService/财报提取-coze代码节点源码.js

省流:这次测试最让我惊喜的是豆包,它已经不只是在 “读图”,而是在 “理解图”。通过逻辑推理发现 OCR 过程中的不合理并自我修正,这种空间推理能力确实走在了前面。


刚好有个工作,同事将一个纸质版表格拍给我(截图君一脸问号?)要转换为一个通知文本。
我太懒了就想让 AI 来完成,然后就发给了 gemini,发现效果有点点问题,就把什么 chatgpt、千问、豆包、阶跃星辰试了一遍。所以有这篇对比(水一贴)
首先是 gemini, 用的是 flash 思考,文字表达比较清晰,但是人数识别有问题,部分单位出现了错位。


接下来用了千问 APP 打开深度思考,文风没问题,人数识别也没问题,但是但是他居然对其中一个单位名字识别出现了幻觉,变成了一个不知道哪来的名字,满分直接变不及格。


刚好阶跃星辰昨天发了个新模型和新工具,想起来他牛逼吹得震天响,就看看他水平,用的是最新的 step3,结果裤子拔掉了,文风有问题,因为我提示词说了是发微信给个人。然后数字也有很多识别错位的情况,比 gemini 多。


然后是豆包,打开思考,唯一满分,有一个很惊艳我的地方,他在输出思考的时候发现识别出来的人数不合理,然后推理出应该是图片方向不对,然后他把图片表格摆正了再识别,最终输出了完全正确的结果。他把图片转置的过程展现了出来,惊艳到我了。唯一有点瑕疵是‘你好~’显得不正式。


最后是老朋友,完全没充值的 chatgpt 网页版,因为没地方选模型,不知道他用了啥。文风没啥问题,数字也没啥问题,但是但是他将 XX 市 XX 区识别成了 XX 市 AA 区,确实是无语。

对于一个主要做办公室工作的人,Vipe Coding 并不能很快改变什么,尤其是老旧的体制机制也没有完成转变,而且实际上并没有那么多单位实现了无纸化数据化办公,对于多模态的需求是非常刚需的存在。
这种细碎的工作使用 AI 辅助其实更能提高幸福感,希望 AI 越来越好,让我成为一个真正的懒汉。


📌 转载信息
原作者:
pigbird
转载时间:
2026/1/21 22:15:10

以往扫描仪在办公室中的角色颇为单一:将纸质文件变成电子图片,任务便告完成。然而,在人工智能技术蓬勃发展的今天,扫描仪正在经历一场深刻的进化。新一代智能扫描仪不再只是简单的格式转换工具,而是成为了能够理解、分析和处理非结构化文档内容的“智能脑”。通过集成光学字符识别(OCR)、自然语言处理(NLP)和计算机视觉技术,智能扫描仪不仅能“看见”文档,更能“看懂”文档。

这个转变的背后,是一个重要的事实支撑:根据行业研究,企业中超过80%的有价值信息以非结构化数据的形式存在——包括合同、报告、邮件、发票等各类文档。这些信息若能被有效挖掘和利用,将为企业决策和创新提供强大动力。智能扫描仪的进化,正是开启这座信息宝库的关键钥匙。

二、智能扫描仪的三大核心能力突破

1. 精准识别与转换

现代智能扫描仪搭载的高精度OCR技术已经相当成熟,不仅能准确识别印刷体文字,对手写体、特殊字体也有很好的识别能力。多语言混合文档、复杂排版(如多栏、图文混排)的识别准确率已超过98%。更重要的是,智能扫描仪能够保持原始文档的格式、字体和布局,生成可直接编辑的Word、Excel等格式文件,而非简单的图片或PDF。

2. 结构理解与智能分类

智能扫描仪能够理解文档的逻辑结构,自动识别标题、副标题、段落、表格、图表、页眉页脚等元素。基于内容分析,系统还能对文档类型进行智能分类——自动区分发票、合同、简历、报告等不同类型的文档,并应用相应的处理策略。例如,面对一份采购合同,系统会重点关注金额、交货日期、违约责任等关键条款;而处理学术论文时,则会聚焦研究方法、数据结果和结论部分。

3. 内容解析与知识提取

这是智能扫描仪最具革命性的能力突破。通过深度学习算法,系统能够:

  • 语义理解:超越文字表面,把握文本的深层含义和意图。例如,不仅能识别“甲方应在30日内付款”这句话中的每个字,更能理解这是一项付款义务,涉及特定主体、时间限制和具体行为。
  • 关系网络构建:分析不同文档间的内在联系,构建跨文档的知识图谱。比如,将多份相关合同、邮件和会议记录关联起来,形成完整的项目视图。
  • 模式识别与异常检测:在海量文档中发现规律和异常。例如,在财务报表中自动识别异常波动,在质检报告中标记不合格项目。

三、深度解析:非结构化数据的价值解锁

1. 什么是非结构化数据?

非结构化数据指那些没有预定义数据模型或组织形式的信息,包括文本文件、电子邮件、社交媒体帖子、图像、视频等。在企业环境中,最常见的非结构化数据是各类业务文档:

  • 合同与协议:条款复杂,专业性强
  • 财务报告:数据密集,关联性强
  • 客户反馈:形式多样,情感丰富
  • 会议记录:口语化强,重点分散
  • 研究论文:专业术语多,逻辑严密

传统处理方式主要依赖人工阅读、摘录和整理,效率低、成本高、一致性差,且难以进行大规模分析。

2. 智能解析的四层突破

智能扫描技术通过四个层次的解析,破解非结构化数据处理难题:

第一层:语义理解

系统能够理解文本的上下文关系、情感倾向和真实意图。例如,在客户投诉信中,不仅能提取投诉内容,还能分析客户的失望程度和核心诉求。

第二层:实体提取

自动识别和提取文档中的关键信息实体,如人名、组织名、日期、金额、产品名称等。这些实体信息可直接导入数据库或业务系统,实现数据自动化。

第三层:逻辑分析

理解文档内部的逻辑关系。例如,在法律文件中,识别“如果...那么...”的条件关系;在调查报告中,理解数据与结论之间的支撑关系。

第四层:知识图谱

将分散在不同文档中的信息关联起来,构建企业知识网络。比如,将客户信息、订单记录、服务反馈等关联分析,形成完整的客户视图。

3. 行业应用价值

金融行业:智能扫描系统可自动审查贷款申请材料,提取关键财务数据,评估信用风险,处理时间从数小时缩短至几分钟。

医疗健康:将纸质病历、检查报告数字化并结构化,建立可搜索的患者健康档案,辅助医生诊断和治疗决策。

法律服务:快速分析大量法律文件和案例,提取相关法条、判例要点和关键事实,大幅提高案件准备效率。

教育科研:智能解析学术文献,提取研究问题、方法、数据和结论,帮助研究人员快速了解领域动态。

四、ComPDF AI:智能文档解析的实践典范

1. 产品定位与技术优势

ComPDF AI是一款面向企业级应用的智能文档处理平台,集成了先进的OCR、自然语言处理和深度学习技术。其核心优势在于“一体化”和“智能化”:不仅支持从扫描到解析的全流程处理,更能深入理解文档内容,将非结构化数据转化为结构化知识。

平台采用多格式统一解析引擎,无论是扫描件、PDF、Word、Excel还是图片格式,都能提供一致的高质量解析结果,真正实现全格式文档的智能化处理。

2. 核心功能详解

智能版面分析ComPDF AI能够精准识别复杂文档的版面结构,包括多栏排版、表格、图表、文本框等元素。无论是传统的报纸式排版还是现代的创意设计,系统都能准确还原文档的逻辑结构,为后续的内容解析奠定基础。

深度内容解析:基于预训练的大语言模型和行业知识库,ComPDF AI能够理解文档的语义层次。例如,在技术白皮书中,区分技术原理、应用场景和竞争优势;在年度报告中,识别财务数据、业务分析和未来展望。这种深度理解能力,使系统能够提取真正有价值的信息,而非简单的关键词匹配。

交互式处理:用户可以通过自然语言与文档进行对话。例如,输入“找出合同中所有关于知识产权的条款”或“汇总2023年各季度销售数据”,ComPDF AI能够准确理解查询意图,并在文档中找到相应信息,以结构化形式呈现结果。这种交互方式大大降低了使用门槛,使非技术人员也能轻松进行复杂文档分析。

批量自动化处理:针对企业级应用场景,ComPDF AI支持大规模文档的批量处理。用户可以建立自动化处理流水线,设置规则和模板,系统将自动完成文档的解析、分类和信息提取。例如,财务部门可以设置发票处理流程,系统自动识别发票类型、提取金额和供应商信息,并导入财务系统。

3. 应用场景展示

企业法务场景:某跨国公司使用ComPDF AI处理全球分支机构的合同审查。系统自动识别合同类型(采购、销售、雇佣等),提取关键条款(价格、交付期限、违约责任等),并标记潜在风险点。法务团队审查重点合同的时间从平均4小时缩短至30分钟,效率提升超过85%。

财务部门应用:一家大型零售企业将ComPDF AI集成到财务流程中,自动化处理每月数千张供应商发票。系统不仅提取发票基本信息,还自动验证发票真伪、匹配采购订单,并将数据直接导入ERP系统。人工核对工作量减少70%,错误率降低90%以上。

研究机构案例:某政策研究机构利用ComPDF AI分析大量政策文件和研究报告。系统自动提取政策要点、实施措施和影响评估,帮助研究人员快速把握政策脉络。文献调研时间减少60%,让研究人员能够更专注于深度分析和创新思考。

五、智能扫描仪的具体应用场景

1. 办公室自动化

智能归档与检索:传统文档管理依赖人工标注和分类,检索困难。智能扫描仪自动识别文档内容,提取关键词和摘要,实现精准的全文检索。例如,需要查找三年前某个项目的会议记录,只需输入相关关键词,系统即可快速定位。

会议记录处理:扫描纸质会议记录或直接处理电子笔记,系统自动识别发言人、讨论主题、决策事项和待办任务,生成结构化会议纪要,并同步到项目管理工具中。

2. 专业领域深化应用

财务税务:自动处理各类发票、收据和报税单据,提取关键数据(金额、税率、日期等),验证税务信息,并直接导入会计软件。每年报税季,这一功能可节省大量时间和精力。

人力资源:智能解析求职者简历,提取教育背景、工作经历、技能证书等信息,与职位要求自动匹配,生成候选人评估报告。招聘人员可以快速筛选合适人选,提高招聘效率和质量。

客户服务:分析客户来信、在线反馈和调查问卷,自动识别客户情感(满意、中性、不满),提取核心问题和建议,分类汇总后转交相关部门处理。帮助企业及时了解客户需求,改进产品和服务。

知识管理:将企业内部的各类文档(技术手册、产品说明、案例研究等)数字化并结构化,构建企业知识库。员工可以通过自然语言查询获取所需知识,促进知识共享和创新。

3. 个人效率提升

学习笔记管理:学生和研究人员可以扫描纸质笔记和参考资料,系统自动识别重点内容、公式图表和参考文献,建立个人知识库。复习和写作时,能够快速查找相关资料。

个人文档整理:处理个人证件、保单、合同等重要文件,系统自动分类存储,并设置提醒(如保险续保、证件到期等)。需要时可通过手机快速检索和查看,实现个人文档的智能化管理。

六、实施路径:如何部署智能扫描解决方案

1. 技术准备要点

硬件选择:根据文档处理量选择合适规格的扫描仪。对于大批量处理,建议选择自动进纸、双面扫描的高端型号;对于日常办公,普通平板扫描仪即可满足需求。同时考虑与现有办公设备的兼容性。

系统集成:智能扫描解决方案需要与企业的文档管理系统、业务系统(如ERP、CRM)集成。选择支持标准API接口的解决方案,确保数据能够顺畅流转。云部署方案可以降低初期投入,快速上线使用。

2. 流程改造建议

制定数字化标准:统一文档扫描的质量标准(分辨率、格式等)、命名规范和存储结构。建立文档分类体系,确保后续处理的效率和一致性。

优化工作流程:重新设计文档处理流程,减少人工干预环节。例如,将扫描、识别、分类、归档设置为自动化流程;建立异常处理机制,对无法自动处理的文档进行人工复核。

培训与推广:对员工进行系统培训,使其掌握智能扫描工具的使用方法。通过试点项目展示应用效果,逐步推广到全公司。建立使用反馈机制,持续优化系统配置和流程设计。

3. 数据安全与合规

隐私保护机制:确保扫描和解析过程中个人隐私数据的安全。采用数据加密传输和存储,设置访问权限控制。对于敏感文档,提供本地化处理选项,避免数据外泄风险。

行业合规性:不同行业对文档处理有特定合规要求。例如,医疗行业需符合HIPAA标准,金融行业需满足数据保存和审计要求。选择解决方案时,确保其符合相关行业规范和法律法规。

七、未来展望:智能扫描技术的发展趋势

1. 技术融合方向

多模态AI整合:未来的智能扫描仪将整合文本、图像、语音等多种信息处理能力。例如,不仅解析文档文字,还能分析其中的图表数据;结合语音识别技术,处理会议录音和访谈记录,形成完整的会议档案。

边缘计算与云协同:部分处理任务将在扫描设备本地完成(边缘计算),减少数据传输延迟,提高响应速度;复杂分析任务则交由云端处理,利用更强大的计算资源。这种协同模式平衡了效率与能力的需求。

2. 功能演进预测

预测性文档分析:系统不仅能解析已有文档内容,还能基于历史数据预测未来趋势。例如,分析历年销售合同,预测下季度销售情况;审查项目文档,识别潜在风险和延误可能。

实时协作处理:支持多人同时处理同一份文档,实时共享解析结果和批注意见。无论团队成员身在何处,都能高效协作完成文档审查和分析任务。

行业深度定制:针对特定行业的专业需求,提供高度定制化的解析模型和知识库。例如,为律师事务所定制的法律文档分析系统,为医院定制的病历处理方案,为科研机构定制的文献分析工具。

3. 生态建设

深度系统集成:智能扫描技术将与企业各类业务系统深度集成,成为企业数字基础设施的一部分。从简单的数据输入工具,演变为支持决策的智能分析平台。

开放开发者生态:提供丰富的API接口和开发工具包,支持第三方开发者创建定制化应用。构建应用商店生态,满足不同用户的个性化需求。

八、结论:智能扫描仪——企业数字化转型的关键拼图

智能扫描仪正在从企业的“成本中心”转变为“价值创造者”。传统文档处理需要投入大量人力资源,却难以产生直接价值;而智能扫描仪通过自动化处理和深度分析,释放非结构化数据的潜力,直接支持业务决策和创新。

这一转变的核心,在于智能扫描仪成为了非结构化数据价值释放的杠杆点。它连接了纸质世界与数字世界,物理文档与数据系统,将散落在各处的信息碎片整合成可用的知识资产。

前言

用电脑的时候,经常需要翻译一下,比如下载了个英文软件,英文又不怎么好。
十年前那会经常用一个叫做天若 ocr 的软件,遇到看不懂的,直接截图识别再翻译一下,特别方便。后来不知道怎么的就不能用了。
中间试了多个软件,都不怎么如意,或者说没有天若那个纯粹。

正文

推荐一个叫做 pot 的软件,它很纯粹,专门用于这个应用场景 (截图翻译)。

它的问题就是识别很烂,乱七八糟得,英文中文符号大锅烩,根本看不懂。但是它可以安装插件,我安装了个 RapidOCR,就可以正常识别了。

它还有个问题就是开始开启 hdr 的话,截图界面就像是加了滤镜一般,灰蒙蒙地,灰色的字都会消失,这个我研究了半天没找到解决方案,所以干脆关闭了 hdr。

做了这番配置,使用体验就很好了,和当年得天若没啥区别了。


📌 转载信息
转载时间:
2026/1/15 18:17:19

直接上地址: AutoVerity

用了一个多周了,体验下来真的太棒了,太棒了,太棒了(重复 3 遍,不是 AI )。

我平日工作中每天要打开验证码的网站,这个插件会 ocr+自动填充,节省不少时间。

这个工具半年没更新了,大家有类似的插件吗?担心后面不维护了。

ps. 只支持普通的 ocr ,上难度的不太行。

各位佬好,我是 Wipely 的作者。

上周发帖后收到了很多兄弟的反馈,确实被喷得不轻(感谢大家的真实吐槽)。 大家最关心的几个问题:“识别不准”、“怕上传文件不安全”、“水印去不掉很烦”

这周我没闲着,针对这些痛点肝了一周,带来了 Wipely 的重大更新

核心更新

1. OCR 准确率大幅提升 之前的版本确实有点 “瞎”,小字、模糊字经常漏。 这次我优化了识别模型,文字捕获率显著提升(相对首发)

2. 支持「纯离线模式」 (Privacy First) 这是大家最关心的隐私问题。 现在,你可以选择离线模式。在这个模式下:

  • 所有计算(OCR、Inpainting 修复)全部在你的本地浏览器 (WebAssembly) 中完成
  • 没有任何图片数据会被上传到服务器 (不用担心你的 PPT 隐私泄漏了)
  • 拔掉网线也能跑!(当然加载网页还得联网一下)
  • 真正做到了 “你的数据只属于你”。

3. 水印不再 “Burn 死在图里” 之前擦除后的图片带的水印,是直接 burn 在图层里的。 现在的逻辑改了:水印会作为一个独立的、可编辑的对象层添加。 如果不喜欢?直接在 ppt 中选中 → Delete。 就这么简单,把选择权还给大家。


关于福利

上周的首发活动不管是骂是夸,热度都很高,感谢大家支持。

  • 永久福利: L 站用户的 每天 50 个文件 额度依然有效(多页 PDF 算 1 个文件)。

传送门

Wipely - NotebookLM2PPT Tool


📌 转载信息
转载时间:
2026/1/12 17:09:47

外星科技
一键对鼠标下图片文本进行 OCR
智能捕获文本框,拼接,并用大模型清理输出。
还在手动框选? 你 out 啦~~

核心库:文本检测模块 - PaddleOCR


📌 转载信息
原作者:
Claude4
转载时间:
2026/1/8 10:28:24

  1. 在 Google Drive 的 book1.pdf 上按滑鼠右鍵,選擇 Open with Google Doc,將會自動轉換成 book1.doc 文字檔。
  1. 直接另存就可以保存 OCR 後的文檔。

如果 OCR 後文字字型超大。此時按 CTRL-A,選擇整個文檔。 再用滑鼠點上面 MENU 的格式 → 清除格式,即可恢復正常大小。

参考来源:GitHub - jhwangus/quicktip_4_haodoo: This contains the tips for using Google Doc OCR to eBooks for Haodoo


📌 转载信息
原作者:
pgodspeed
转载时间:
2026/1/6 18:49:52

前提:

新功能展示效果如下

【开源】质的飞升!大香蕉生成图片转换为可编辑 PPT 的速度直接质变!飞升了!GPU 加持下无敌2

增加 GPU 版本识别图片转换为 PPT,速度质的飞升!

下载 ppt_editor_ocr_GPU.zip

然后 GPU 版本安装方式:

GPU 版本,需显卡驱动程序版本 ≥450.80.02(Linux)或 ≥452.39(Windows)

python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

GPU 版本,需显卡驱动程序版本 ≥550.54.14(Linux)或 ≥550.54.14(Windows)

python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

接下来运行安装 requirements.txt 这个文件 py run.py 即可!


📌 转载信息
原作者:
Tammie_Herrold
转载时间:
2026/1/6 11:58:16

各位佬好,我是 Wipely 的作者。

最近玩 NotebookLM 确实上头,Slide 生成确实很强,但那个生成的 PDF 简直让人高血压 —— 全是死图 / PDF,想改个字、换个翻译都不行。 之前试过各种转 PPT 工具,要么跑版,要么收费死贵,最后只能对着屏幕干瞪眼。

心里想:既然你不让我改,那我就把你字全扣出来,变成没字的背景,再把字填回去变成可编辑的文本框!

于是趁着元旦假期,搓了这个在线工具。

这玩意儿能干啥?(不仅仅是擦除)

不仅仅是去水印 / 去字,更是 “复活” PPT:

  1. 智能去字 & 补全:自动识别文字区域,基于把字擦掉,并脑补背景填回去,还原一张干净的 “母版” 背景图。
  2. OCR & 还原可编辑文本:利用 OCR 识别原来的文字内容、颜色和位置,以可编辑文本框的形式重新填回 PPTX 里。
  3. 最终产物:导出的不是几张大图,而是真正的、文字可选中、可修改的 .pptx 文件
  4. 批量搞:支持整份 PDF 扔进去,批量处理导出。



L 站兄弟专属福利 (不整虚的)

新站上线,肯定是 Bug 满天飞。为了感谢各位佬帮我踩坑测试,直接上干货:

1. Pro 会员免费领 (1 年)

  • 暗号:不用绑卡!直接在升级页面选择 Pro 365 日免费试用!
  • 注意:不需要绑卡!直接 0 元购。截止到 1 月 9 号下午 5 点(首发这三天)。
  • 权益:解锁所有 Pro 功能(无限导出 PPTX),随便用。

2. 只有 L 站才有的永久特权

  • 就算不想领 Pro,也就是偶尔用用,我也把基础额度改了:永久每天免费 50 个文件
  • 重点:一个 100 页的 PDF 也只算 1 个文件。这下够用了吧?

传送门

https://www.wipelyai.cv/


最后碎碎念: OpenCV 在浏览器里跑确实吃点资源,第一次加载 opencv.js 可能会转圈几秒,我已经尽力做了缓存优化,大家体谅一下。 有任何 Bug、或者觉得识别不准、排版错乱的,直接在楼下喷,我在线修!


📌 转载信息
转载时间:
2026/1/6 11:36:28

SnowShot

软件官网:snowshot.top
开源仓库:GitHub - mg-chao/snow-shot: 超好用的截图工具

软件截图

与 Pixpin 对比截图

优点

  1. 功能全部免费
  2. 个性化程度高,可以自行安装插件
  3. 自定义皮肤(甚至 logo 也可以自定义)
  4. 支持视频录制、OCR、翻译以及 AI 对话
  5. 可以贴图、长截图!
  6. 可以扫码

缺点

  1. 线条、形状描边宽度只有三个选项,不是滑动条的形式
  2. 可能和 pixpin 有些相似(x

补充

精细大小控制需要在设置手动开启


📌 转载信息
原作者:
Hiru
转载时间:
2025/12/30 16:10:51