2026年1月

​1分钟速览

开源 OCR / 文档解析在 demo 阶段表现良好,是因为你验证的是“算法是否可行”; 而在真实项目中出问题,是因为你真正需要的是“一个可长期运行的工程系统”。

这不是你当初判断失误,而是项目进入了必须升级文档底座的阶段

当你开始在解析层遇到不可控问题时,真正要问的已经不是

“还能不能再调一调”,

而是:

这个能力,是否已经到了必须交给生产级系统来承担的时候。

当我们构建一个需要处理文档的AI系统时,选择技术栈的第一个决策点往往是文档解析。许多团队的开局惊人相似:选择一个流行的开源OCR工具,快速搭建演示原型,看着它流畅地识别测试文档中的文字和表格,然后满怀信心地推进项目。

然而,当项目真正进入生产阶段,面对成千上万的真实文档时,最初的信心往往开始动摇。

如果你正在推进下面这类项目:

  • 集团级 知识库 / AI 中台
  • 面向业务的 RAG / 文档 Agent
  • 审计、法务、科研等 文档密集型系统

那你很可能遇到过一个相同的现象:

开源 OCR / 文档解析在 demo 阶段表现不错,但一进入真实项目,问题就开始集中暴露。

这并不罕见,也并不意味着你当初的技术判断是错误的。

这不是某个工具的问题,而是一个“阶段错配”的问题

一、为什么在 demo 阶段,开源方案是“合理选择”?

在项目早期,也就是概念验证阶段,大多数团队的验证目标非常清晰且有限:

  • 能不能识别文字?
  • 表格结构大致对不对?
  • 能不能接到下游模型里跑通一条链路?

此时的文档样本通常经过挑选,它们是清晰的扫描件、结构简单的表格,其特征也较为明显:

  • 样本量小
  • 文档相对干净
  • 格式单一、可控
  • 人工肉眼校验即可

在这个阶段,开源OCR或文档解析工具往往表现良好,完全可以满足需求

  • 成本优势明显(零直接成本)
  • 快速集成能力
  • 社区支持与可定制性
  • 满足“看起来有效”的演示需求

从技术决策角度看,这个选择是理性的

问题不出在这里,但也埋下了一个种子:团队验证的是“算法是否工作”,而非“系统能否稳定运行”。

二、什么时候问题开始出现?不是“用久了”,而是“换阶段了”

真正的问题不随时间线性出现,而是在项目跨越某个临界点时集中爆发。这个分水岭通常出现在项目进入以下状态之一时:

  • 文档规模开始上量(成千上万页)

    • 从几十个样本文档到数万页的实际业务文档,处理压力从算法层面转移到工程层面。
  • 文档类型开始混杂

    • 不同年代的扫描件(从高清到低分辨率)
    • 多语言混合文档
    • 复杂表格(尤其是跨页表格)
    • 手写注释与印刷体混合
  • 解析结果被多个下游系统依赖

    • RAG
    • 信息抽取
    • 审核、比对
    • 数据入库

在一些科研、法务、审计类项目中,单个文件就可能是上千页,而且对准确率有明确业务责任。
这时,团队往往会发现:

demo 阶段没暴露的问题,开始以“不可预测”的方式集中出现。

三、问题为什么不是“识别率不够高”,而是“系统开始不稳定”?

进入项目阶段后,问题的表现形式通常不是“完全不可用”,而是:

  • 表格偶尔错位
  • 标题层级不稳定
  • 阅读顺序偶发错误

图片

                               复杂表格结构出错

生产环境中最棘手的问题不是“识别率从95%降到85%”,而是无法预测的失败模式。这些问题单看一次,似乎都不严重。

在真实系统中,它们会被下游能力放大

  • 错位的表格 → 抽取字段整体偏移
  • 错乱的结构 → RAG 召回范围失真
  • 顺序错误 → 模型给出“看起来合理但不可信”的答案

这也是为什么很多团队会产生错觉:

“是不是模型还需要再调一调?”

四、为什么这是工程级问题,而不是参数或模型问题?

许多团队最初的应对策略是增加后处理规则。然而,他们很快发现一个事实:

一旦信息在解析阶段丢失,后续几乎无法可靠恢复。

为什么后处理救不了?

  • 跨页表格一旦在解析阶段被拆断,后处理无法稳定还原结构
  • 标题层级丢失,本质是上下文关系消失
  • 这类错误不是“规则没写够”,而是信息已经丢失

为什么模型背不了这个锅?

  • 模型只能基于输入推理
  • 输入结构不稳定,模型只会稳定地产生不稳定结果

在一些审计和数据处理项目中,团队尝试直接用多模态模型做文档抽取,但很快遇到两个现实限制:

  • 吞吐和延迟无法支撑批量处理
  • 泛化能力不足,格式一变就失效

最终结论往往是:

问题不在模型能力,而在缺少一个稳定、可控的解析层。

五、成熟团队是如何看待“文档解析”的?

在已经跑过真实项目的团队里,会出现一个明显的认知转变:

文档解析不是一个功能,而是基础设施。

成熟方案通常具备几个共性:

  • 优先保证结构稳定

    • 表格连续性(尤其是跨页)
    • 标题层级一致
    • 阅读顺序可预期
  • 以工程系统形态存在

    • 支持批量、异步处理
    • 有失败重试和状态追踪
    • 上量后性能可预测
  • 能被长期复用

    • 同时服务 RAG、抽取、审核、入库
    • 而不是一次性脚本或 Demo 工具

这正是面向生产的解析系统——如TextIn xParse——所采用的方法论:不追求单一的“最智能”算法,而是构建可预测、可监控、可维护的工程系统。

图片

例如,面对复杂表格,TextIn xParse更注重表格结构还原、标题/注释与表格的语义关联,而不仅仅是字符识别率。

六、在真实项目中,解析通常处在什么位置?

在生产系统中,解析能力通常处在一个非常明确的位置:

文档输入

解析(结构化/去噪/表格/层级/顺序)

标准化输出

RAG/抽取/审核/数据处理

换句话说:

解析层决定了后面所有 AI 能力的上限和稳定性。

七、为什么生产级文档解析,不能只靠开源工具补出来?

这不是“开源好不好”的问题,而是阶段是否匹配的问题。

开源OCR工具的设计目标通常是解决广泛的通用识别问题,提供算法实现参考,以及满足研究和轻量级应用需求。

而当你的系统开始具备以下特征:

  • 长期运行
  • 批量处理
  • 多业务依赖
  • 对准确率和可追溯性有责任

那你需要的已经不是一个“能跑的工具”,而是一个能长期运行的工程级能力。

当团队选择基于开源工具自建解析系统时,往往低估了:

  1. 维护成本:持续适应新文档格式、修复边缘案例
  2. 集成成本:与下游系统深度整合的复杂性
  3. 机会成本:团队时间从核心业务逻辑转移到基础设施维护
  4. 风险成本:解析错误导致的业务决策风险

这也是为什么在科研、法律、审计等对精度、稳定性、本地化高度敏感的项目中,文档解析会被当作生产级底座来选型,而不是临时方案——正是由于隐性成本往往远超采用专业解决方案的直接成本。

八、一个国家实验室的知识库建设历程

一个国家级科研机构的项目演进过程清晰验证了文档解析应用可能面对的阶段与问题。该实验室最初的目标是构建一个覆盖其核心领域科研成果的内部知识库,用于辅助研究人员快速检索相关文献、实验数据和报告。

第一阶段:快速原型验证

项目初期,团队选择了流行的开源OCR和文档解析工具包。在有限的演示数据集上——几十份清晰扫描的论文和报告——系统表现令人满意。文字识别准确,基本表格结构得以保留,与初步搭建的检索系统对接顺利。这一阶段成功证明了“技术路径可行”,项目如期进入全面开发。

第二阶段:规模化遭遇瓶颈

当系统开始导入真实的库存文档时,问题开始暴露。这些文档包括:

  • 年代较久远的研究文件(部分为低质量复印件)
  • 包含复杂跨页数据表格的年度报告
  • 多语言混合的国际合作论文
  • 带有大量手写批注的实验文件

在数千份文档的批量处理中,团队观察到:

  1. 性能不可预测:处理时间波动极大,从数秒到数分钟不等,无法预估整体完成时间
  2. 错误模式随机:同一份文档两次处理可能得到不同结果,特别是复杂表格的结构
  3. 维护负担沉重:每出现一种新文档格式,就需要编写新的后处理规则

第三阶段:基础设施升级

面对上线期限和准确性要求的双重压力,团队重新评估了解析层的定位。他们需要的不是“另一个更聪明的算法”,而是一个能够提供:

  • 稳定结构输出:确保相同文档类型获得一致解析结果
  • 可预测性能:支持大规模批量处理,有明确的时间预估
  • 专业格式支持:专门优化对科研文档中复杂表格、公式、图表注释的处理能力

基于这些标准,实验室最终选择了 TextIn xParse 作为生产环境的解析引擎。切换后最显著的改善不仅仅是准确率的提升,更是:

  • 处理速度变得可预测,万页级文档库的解析时间从不可预估降至可控范围
  • 跨页表格的连贯性得到保障,数据完整性不再依赖运气
  • 系统维护工作量大幅降低,团队重新聚焦于上层知识库应用逻辑的开发

这个案例的启示在于:当项目从“验证可能性”进入“保障可靠性”阶段时,对基础设施的要求发生了质的变化。该国家实验室的经验表明,解析能力的升级不是一种“优化”,而是在特定阶段必须完成的“切换”——从实验性工具切换到生产级系统**。这种切换带来的价值,往往不在于单项指标的提升,而在于整个系统从“可能出错”到“可信赖”的状态转变。

结论:阶段的正确匹配

开源OCR在demo阶段表现出色,是因为它完美匹配了该阶段的需求:快速验证、低成本、灵活性。但当项目进入生产阶段,需求发生了根本变化:

从验证“是否可行”转变为保障“始终可用”。

这种转变需要的是:

  • 工程级的稳定性而非算法级的新颖性
  • 可预测的性能而非偶尔的卓越表现
  • 完整的生态系统而非孤立的工具

当你的项目开始出现无法通过调整参数解决的解析问题时,真正需要问的不是“如何修补这个工具”,而是:

我们的文档解析需求是否已经跨越了从“实验工具”到“生产系统”的临界点?

对于已经达到这一临界点的团队,专业解析解决方案提供的不仅仅是更好的识别算法,更是一个完整的工程体系——这是从演示原型到生产系统必须跨越的鸿沟。

选择何时跨越这一鸿沟,取决于项目的规模、复杂度和风险容忍度。但一旦决定跨越,就需要相应的工程思维和工具支持,因为在这个阶段,可靠性不再是可选项,而是必需品。

异常处置包含异常发现、问题定界和根因定位等环节,高效的异常处置流程对于保障平台的稳定性起到至关重要的作用,然而平台本身的复杂度以及海量的多元异构数据给异常处置带来了巨大的挑战。如今,大模型等 AI 技术的演进则为应对这些挑战提供了新的思路。在 2025 年 InfoQ 举办的 QCon 全球软件开发大会( 北京站)上,来自阿里云的算法专家张颖莹发表了题为《AI 驱动的智能异常处置:从异常发现到根因定位》的演讲。她从阿里云计算平台的运维场景出发,分享了从异常发现到问题定界和根因定位各环节的算法选型和设计思路,包括通用的时间序列异常检测、高效的日志聚类和精准的多 Agent 根因定位框架。

预告:将于 2026 年 4 月 16 - 18 召开的 QCon 北京站策划了「Agent Ops:运维新生产力」专题,将深入讨论 Agent 如何与现有技术栈深度集成,并演进为具备长期记忆与自我进化能力的运维实践。如果你也有相关方向案例想要分享,欢迎提交至 https://jinshuju.com/f/Cu32l5

以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。

阿里云大数据运维背景

我们阿里云计算平台整合了整个阿里的大数据和 AI 的能力,并以产品化、平台化的方式支撑了我们集团内部与云上各行各业客户的众多非常核心的业务场景。这里列举其中几个比较典型的平台。

  • 比如 MaxCompute 大数据计算服务主要负责大规模数据的离线计算。大家日常在网购后经常会在手机上去追踪自己的包裹,这些菜鸟的物流数据产出就依赖 MaxCompute。

  • 还有实时性要求相对较高的场景,比如自动驾驶场景,车机系统会对司机的危险驾驶行为发出实时警告。像这一类比较追求时效性的场景,往往就依赖 Flink 这样的实时计算引擎。下一个是 Hologres 实时数仓,大家在手机淘宝上检索商品关键词时,它会在底层进行实时的交互式分析,为大家呈现实时的检索推荐结果。

  • 另外随着大模型越来越火爆,大家对机器学习模型相关的训练、微调、在线服务的需求都有了爆发式的增长。这一类的模型训练、微调、在线服务都可以一站式在我们的机器学习平台 PAI 上完成。

可以看出我们的这几个平台上层支撑的业务都非常重要,所以做好这些平台的运维也非常关键。但传统的运维模式很容易让运维人员变成背锅侠的角色。所以我们计算平台也专门设置了一支运维中台研发团队来负责所有大数据和 AI 产品的统一运维管控。我们也一直利用“AI+ 数据 + 工程”的手段来提升整体运维效率。

稳定性作为运维的基石,其重要性是毋庸置疑的。但对于系统来说,异常的发生很难避免,怎样在异常发生时能进行快速高效的处置,对于整个平台的稳定性是非常重要的。另一方面,随着我们的用户对云服务厂商服务水平的要求越来越高,精细化运维已成为行业趋势。另外像我们前面提到的这些大数据平台,它们的底层都是超大规模的计算集群,这些集群无时不刻都在产生海量的数据,这些海量数据对我们的异常处置也带来了更多的战。

我把整个异常处置层面我们面临的挑战总结成三个层面。首先是面对这样复杂的系统,我们怎样从这个系统运行的蛛丝马迹里全面发现各种异常,确保监控的覆盖率。第二个层面是面对这么多异常告警,我怎样从这些告警风暴里真正剥离出最关键的信息,从而减少误报对运维人员的干扰。第三个层面是当异常发生时,我怎样快速定位到问题的根本原因,并采取针对性的措施,对症下药来让异常快速恢复,减少对用户带来的损失。

异常发现和告警降噪

接下来我们会为大家分享我们是怎样逐一来攻克前面提到的三个挑战。

首先是异常发现的层面,我们团队构建了非常丰富的异常检测相关的算法,力求实现异常的全面覆盖及精准发现。

我们在这里梳理了 4 个典型场景,我们针对不同形态的数据和不同的场景都会选择它最适配的算法。

首先是单指标异常检测场景,比较典型的应用就是我们整个系统的可用性监控。比如这个平台整体的流量、性能、成功率,这些指标和用户自身的业务周期是非常紧密相关的,因此它经常会呈现出比较复杂的多重周期性。所以在这里我们自研了一套鲁棒的周期分解算法,来对这些曲线中的多重周期性进行精准的识别和分解,从而更好地做到异常的发现。

第二类是多指标异常检测场景。当我需要判断一台机器是不是存在异常时,可能单独去看其中的某一条指标是没有太大参考价值的,我需要综合去看这个机器所有维度的指标。在多指标异常检测这边,我们直接选用了开源的多指标异常检测模型。虽然它相比单指标异常检测可能会牺牲一定程度的可解释性及性能,但它可以更好地把握多指标之间的内部关联性,从而提升检测的精准度。

第三类是基于分布的异常检测。在大数据运维的场景里,我们经常会面临着这样的问题,就是当我的集群性能变慢时,我不单是要检测单个指标、单个作业是不是变慢了,而是希望去看整个集群或整个平台的作业运行的分布是不是有异常的变化。针对分布的异常检测,我们也自研了一套异常检测算法。

除了指标之外,日志也是非常重要的一种可观测的数据。日志数据最大的挑战是它的体量非常庞大,所以在这里我们先选用了业界性能比较高的日志模板提取算法,然后我们会基于提取出来的日志模式去判断它是不是新增的异常,或者它的模式是不是有暴增的变化。

接下来我们重点给大家展开介绍一下前面提到的两类自研算法。

首先是针对单指标的场景,我梳理了我们运维场景里最关心的几类典型异常,包括均值变化、方差变化,也就是抖动频率的变化,还有尖峰深谷的异常、断崖式跌落的异常,还有趋势型的异常。大家可以看到梳理出来的异常可能看起来还比较明确,但实际上这些异常融合到真实的业务数据里时,非常容易受到数据本身的其他周期性的干扰,使得检测变得非常困难。

所以在这里我们构建了 周期分解算法,它的核心思想是采用了分而治之的策略。首先从一条时间序列里把不同频率的周期逐一剥离出来,然后再针对剥离出来的每一重周期去精准计算它具体的周期长度,从而更好地把握整个数据的周期性特点。做完周期分解后,我们会进一步利用不同类型的统计检验方法,来分别对应检测前面提到的这几种典型异常,从而实现用一套算法框架就能够覆盖前面提到的多种类型的异常,使得这一套单指标的异常检测算法能够在运维领域具备更强的普适性。

第二类是基于分布的异常检测。大数据运维经常会面临的痛点,是当我需要做整个集群性能的异常检测时会面临两个挑战。首先是整个集群上运行的作业数量非常多,如果我对每个作业都去检测它有没有运行变慢,耗费的成本会非常高。而且即使我做到了对每个作业的检测,但实际上我并不会关心单一的某作业的波动,因为很多情况下可能用户购买的资源不足,他自己的资源组里面的作业之间也会进行资源的争抢,所以也会出现单作业变慢的情况。但我们真正需要关心的是整个集群作业性能异常、变慢的这种趋势。

所以我们把整个集群作业运行时长的分布图构建了出来,然后借鉴了优化领域非常经典的运输问题,结合基于重构的深度学习模型来进行异常检测。我们可以把整个集群的作业运行时长的分布图想象成土堆,然后当这个土堆向右边运输时,我们增加一定的惩罚项,从而更好地检测出整个作业运行时长分布图向右偏移,也就是整个集群性能变慢的这种场景。当然我们还在深度学习模型里选用特殊的门控机制,来更好地应对训练样本当中的噪音问题。

到这里我们已经通过多种类型的异常检测算法实现了异常的全面覆盖。随之而来的问题就是面对这么多的异常告警,运维人员怎么判断到底哪些异常才是需要第一时间响应的。所以我们需要对这些告警进行进一步的精细化分级。我们主要从两个方面来进行告警的精细化处理,分别是影响面拉取和问题定界。

影响面拉取指的是当我们的主指标异常触发了异常工单后,我可以根据整个拓扑关系拉取到主指标所关联的子指标。然后我通过时间序列的下钻算法,可以量化出来每个子指标对主指标的贡献程度,以及它自己相对于历史的异常度。综合这两个维度,我可以计算出来这一次的异常所波及到的影响面到底有多广。一般来说波及面越广的异常,运维人员自然要去更加高优地响应。

第二类是问题定界。在大数据的场景里有很多异常是因为用户自己的操作失误引起的,比如像一条 SQL 语句,如果它的语法就存在错误,自然会运行失败,但运行失败就会产生报错日志,甚至会影响到用户实例本身的成功率。但像这一类语法错误导致的异常,我们的运维人员并不需要第一时间介入处理。运维人员真正应该关心的是由平台问题导致的失败或者任务的异常,所以我们需要对用户作业的报错日志进行更加精细化的分析。

这里我们首先用前面提到的日志聚类算法对异常时段的所有日志先进行聚类,聚类完成后我们会提取出其中典型的日志异常模式,然后和我们日志知识库当中的标签去匹配,这个标签就可以标识出日志到底是用户问题还是平台问题。日志知识库的标签从哪来?一方面可以由我们的运维专家去人工标注,另一方面我们现在也在用大模型做这方面的提效。我们会利用大模型事先生成预标签结果,然后让专家审核。

基于影响面和问题定界的结果,我们就可以对告警分成不同的等级,包括需要立即响应的故障性异常,还有红灯、黄灯,还有可以稍微延迟处理的风险性异常。这种做法首先可以让我们不遗漏任何一种风险,同时又可以更好地分配运维专家的精力和关注度,确保他们能够更高效地处置那些真正紧急的异常。

多 Agent 根因定位框架

到这里我们已经解决了异常发现环节的问题。但实际上在异常处置流程里,最耗时也往往最困难的点在根因定位这个环节。因为这个环节涉及到的数据还有工具都非常繁杂,而且即使存在一套非常标准的运维排障流程,但真正具体到每一次故障时,依然需要结合当时的场景和数据的具体问题做具体分析。所以根因定位往往也只有那些经验非常丰富的运维专家才能够做到真正高效的处置。也正是因为根因定位存在着这样的难点,它近年来也一直是学术界、工业界都非常关注的热门话题。我们团队也一直在根因定位这个方向上不断升级策略和算法,现在也引入了多 Agent 的框架来解决这样的问题。

在具体介绍我们的策略之前,我们可以先简单回顾一下 Agent 的核心要素。这几个要素对构建高效的智能体来说非常关键,它也是我们后续设计我们整个多 Agent 根因定位的核心思路。首先是角色的设定部分,我们通常会在大模型的 prompt 里交代它的角色定位,包括它的业务背景,使得它能够在领域上具备更好的专业度,同时也能够更加明确它自己的任务产出到底是什么样的形式。第二类是长短期记忆,通常我们会通过 RAG 的方式引入外部私域知识,进一步提升大模型在私域的专业性,更好地让它了解上下文。第三类是好的工具模块,让大模型具备更强大的主观能动性,拓展它的能力边界。最后是自主编排,对大模型来说非常关键,因为它直接决定了大模型能不能很好地做到任务的拆解,以及具体执行步骤的编排,它很大程度上决定了大模型能不能够解决根因定位的问题。

接下来我们就分别介绍我们是怎样基于这几个核心要素来构建多 Agent 根因定位框架。首先是角色设定的部分。

我们可以回忆一下,当我们日常出现线上问题时,运维团队是怎样工作的?通常他们会成立故障应急小组,在这个小组中会有各个模块的负责人,他们会分别排查各自的模块目前的信息,并且判断自己到底是根因方还是受影响方。然后他们也会和自己的上下游模块做沟通,最终他们的结论会汇总到故障应急负责人这边,他会去对全局的信息做整体汇总,并给出最终结论。

我们希望基于大模型构建出来的诊断系统也能够具备故障应急团队这样的效果。在这个团队里面,人的分工是非常关键的,每个角色都应该具备自己的专业度和特长,所以单一的 Agent 通常不能满足这样复杂任务的需求,所以我们引入了多 Agent 的框架。我们是按照系统的模块来设定每个 Agent 的角色,比如会有专门的存储 Agent、调度 Agent、网络 Agent 等。在 prompt 里,我们会内置模块相关的背景信息,使得它们可以对照现实世界里每个模块的 owner 这样的角色。除了模块 Agent 外,在上层我们还会有系统 Agent 的角色,就相当于是故障应急负责人。它可以收集每个模块 Agent 的结论,并且给出最终的判断。

在完成了 Agent 的角色设定后,接下来很重要的就是要丰富每个 Agent 的装备库。我们构建了 4 大类工具,首先是算法服务类的工具,包括前面提到的时间序列异常检测、日志异常检测能力,还有因果推断能力。这些服务都会构建成在线服务的形式,可以非常方便地对接其他系统,或者作为 API 来让 Agent 调用。

第二类是 RAG 工具,它在私域的智能问答领域里是非常核心的技术,在根因定位环节里同样发挥着非常关键的作用。比如当我们需要对照历史的相似故障来参考它的排障经验时,或者当我遇到一些指标和日志,但可能不太清楚它的具体含义是什么时,都需要参考对应的文档,把对应的知识检索回来,从而给大模型提供更丰富的背景知识。

第三类是运维分析类工具。我们的运维人员构建了很多集成了他们专家经验的分析诊断流,比如针对单个作业的诊断,还有针对整个单机的诊断,还有网络层的诊断等。这一类诊断工具理论上都可以由大模型来自主编排完成,但实际上因为这些工具之前就已经沉淀好了,而且我们利用编排好的诊断流可以直接得到非常明确的结果,所以在很大程度上可以减少大模型的 token 消耗,来提升整体根因定位的效率。

第四类是外部插件。现在很多大模型应用平台都搭载了非常丰富的生态系统,有着插件市场这样的概念,在里面很多第三方的开发者都会贡献他们自己研发的分析工具,比较典型的包括在线检索类工具、代码编写类工具,还有 chatBI 类的工具。现在这些工具都可以直接拿来为我们自己所用。

通过这些工具集的构建,我们就让 Agent 同时具备了专业的运维分析能力、专业的算法分析能力,甚至还具备一定的通用基础开发能力,这样它就能有更好的武器应对更加复杂的根因定位场景。

第三部分是关于编排可靠性的提升。

关于编排,我们会面临这样的挑战,就是一方面我们希望能够尽可能释放大模型自主编排的灵活性,这样它在以前没有遇到过的故障场景也能发挥特定的效应,而不是只能针对历史重复出现的故障才知道该怎么做。但另一方面大模型编排结果是否可靠,可能直接决定了这个故障是不是能够及时恢复,在这个方面我们的容错性是非常低的。所以这里的最大难点就是怎样在释放大模型编排灵活性的同时,又能进一步提升编排结果的可靠性。

在这里我们采取的策略是固定工作流编排和自主编排相结合的混合策略。一方面我们会把运行性能相对较高,并且对根因诊断非常关键的工具,直接编排到前置的工作流里。这些工具直接执行完后,我会把它的结果输入到大模型里,再让大模型自主决策是不是还需要调用额外的工具来做进一步排查,才能够得到最终的根因推断结论。

然后在大模型自主编排这一部分,我们也采取了很多策略来提升它结果的可靠性。任务分解部分我们主要采用的是 react 框架,也是现在比较主流的框架。大家在实际应用里也可以直接把它作为 baseline 来作为后续提升的参照。另一部分是记忆增强,我们通过检索外部的 SOP 来让大模型进一步校准它生成的 SOP 的可信度。第三部分是加入了反思机制,我们会让大模型在整个决策过程动态反思中间过程可能会有哪些改动来保证灵活性。

除了任务分解、记忆增强和反思机制之外,还有一些策略可以进一步提升它的编排可靠性,包括多计划选择,还有引入外部规划器来辅助它生成这样的策略。我们也计划在后面再对这些策略做更详细的尝试。

最后一个问题涉及多 Agent 框架的协同。我们前面聊的都是怎样让 Agent 自己变得更好,接下来的问题是我有这么多个 Agent,怎么能够让它们更好地协同。

现在有非常多的 multi Agent 编排框架,他们在系统里都会内置编排好的多 Agent 协同工作流。但这些默认的工作流,在我们的场景里或多或少都会存在一定的弊端。比如像顺序执行的工作流,上游节点在做决策时是不知道下游节点信息的,所以会存在着一定的信息不对称,会导致它得到片面的结论,而它的结论可能又会进一步影响到下游节点的决策,会形成一定的误差累积效应。第二类是层次结构,虽然看起来有顶层节点来对大家的信息做汇总,但实际上下游节点之间依然是不存在任何信息交换的,同样会导致它们自己得到比较片面的结论。第三种圆桌讨论的模式,看起来大家的信息可以在桌子上进行非常充分的交换,但它最大的弊端在于缺少明确的领导者,所以大家的讨论可能会非常发散,聊着聊着可能就偏离了主题,很难在限定时间内得到非常明确的结论。

考虑到这些固定编排模式的弊端,我们自研了一套基于神经网络反馈机制的工作流。它的核心思想也非常简单,我首先会根据模块之间的拓扑结构设定单向传导的工作流,我们称之为前向反馈。在前向反馈的基础上,我额外增加了后向反馈的机制,实际上就是让前置 Agent 有机会修改自己之前可能得出的错误结论,然后最终大家的结论依然会汇总到系统 Agent 这边来。这样的好处是一方面我可以在一定程度上弥补信息不对称的问题,同时也能把整体的推理次数非常严格地限制在预设的范围内,减少盲目发散的讨论。

通用异常处置平台

前面介绍的更多都是算法层面的设计,而好的算法最终还是需要真正集成到我们的平台上,才能真正融合到运维人员的工作流里,发挥出真正的效用。所以工程平台的建设也非常关键。在这里我给大家分享一下我们怎样来构建通用的异常处置平台。现在我们各个产品的运维异常处置流程都可以在这个异常处置平台上来进行,很大程度上提升了我们计算平台整体异常处置的效率。

整体架构最底层是数据层,我们为运维场景里这些经典的数据模式都安排了最适合它们的存储方式,包括指标、日志、拓扑、文档、事件等,使得它可以在后续的分析环节里做到非常高效的数据抽取、根因分析。

数据层之上是我们非常核心的算法服务层及大模型服务层。算法服务层里搭载的是前面提到的时序、日志、根因定位、因果分析,还有检索这类非常基础通用的算法,这些算法会部署在 PAI-EAS 上变成在线服务,可以供其他系统直接调用,也可以作为工具集成到 Agent 里。

大模型相关的这一部分,除了前面提到的 prompt 工程,还有工具的调用,还有工作流编排。对于完整的大模型服务而言,如果你不是 demo,如果你想要真正上生产的话,还需要考虑很多因素,比如像可观测能力,还有资源的管理隔离能力等。所以想要搭建好大模型应用服务,还是需要搭配非常好的大模型应用构建的平台。幸运的是现在也有非常多的这样的平台,包括商业化的、开源的,都具备了非常强大的能力。但对我们来说,我们还是需要根据我们自己的业务场景去选择最好的、最适合自己的平台来进行构建,才能提升效率。

接下来也想和大家进一步分享一下我们在选择这样的大模型应用开发平台时会从哪几个角度来考虑。我们主要会从三个层面,第一个是应用构建本身的便捷度和产品应用性,第二个是 LLMOps 能力的完备度,最后是平台本身的开放度。

在应用构建方面,我们会重点考虑我在这个平台上是不是可以非常便捷地完成非常复杂的业务工作流的编排,最好就是拖拉拽的方式就可以完成复杂的编排任务。其次是这个平台上面是不是同时具备了微调能力,这样我就不需要在各个平台上频繁切换,能够在平台上一站式完成整个模型的微调和最终应用的部署搭建。第三个是像 RAG 的经典组件,我在这个平台上是不是能够直接复用,减少额外的开发工作量。最后是我在这个平台上面搭建的服务,是不是能够非常便捷地和最终的交互出口承接,不需要额外再构建中间的一层服务来进行引流。

第二个大的层面是 LLMOps 的能力,它直接决定了整个大模型应用服务的稳定性,以及后续性能优化的空间。所以我会重点关注平台是不是具备一定的模型加速能力,资源管理的能力也非常重要,就是在突发流量打进来的时候,你是不是能非常方便地帮我做资源扩容。还有我不同的大数据产品之间肯定是要做隔离的,你是不是具备完备的资源管理隔离的体系。可观测性也是非常关键的,当我大模型推理失败的时候,是不是能够非常便捷清晰地看到到底是哪个环节、哪个工具调用出现了问题,方便我进行问题的快速恢复和改进。最后是模型测评的能力,因为现在基础模型发展非常迅速,所以我希望能够在平台上非常便捷地做模型效果的测评,来方便我选择最适合这个场景的基模。

第三个层面是开放性,开放性直接决定了我在你这个平台上是不是能够更好地利用别人开发的能力,以及我是不是能够和开源的生态做更好的兼容。这里首先要考虑你的插件市场是不是足够丰富。第二个方面,像现在比较火的 MCP 协议,你是不是能够天然支持?还有同外部系统以及开源框架的对接,我现在迁移到你的平台,是不是能够更好地做到无缝的迁移,我后续是不是还能够持续用到开源生态的创新性成果,这些都非常关键。

基于这些考虑因素,我们现在选用的是阿里云的百炼来搭载大模型应用,当然大家也可以结合自己对这几个因素的优先级的排序,选择更适合自己的平台。我们选择百炼,一方面是它在我前面提到的几个维度上相对来说是比较完整的,同时它在应用类型上也非常丰富,既包括我前面提到的固定工作流式的编排,也提供了以 RAG 为核心的智能体应用,同时它还提供了智能体编排应用,可以把前面提到的多种不同类型的应用全部整合进来,做到混合编排。

另外它整个任务编排的产品界面是相对来说比较友好的,我在上面可以非常便捷地拖拉拽来完成复杂工作流的编排。最后在整个百炼的项目空间里,我可以观测到整个服务的调用情况,每一次调用都可以点开详情看每个工具的输入输出到底是什么,是不是符合预期,方便我进行问题的排查。

前面我们已经完成了大模型应用搭建的部分,接下来我们具体聊一下整个异常处置平台到底包含了哪些核心的模块。

首先这个平台的入口也就是告警源,除了前面提到的算法检测结果外,在我们实际的业务里它还会包含 SRE 自己在监控系统里设置的监控告警,当然还有用户来提的工单或者人工补录的情况。每一种告警来源,我们都会给它生成异常工单,这个工单里会包含 4 个非常核心的模块,首先是异常现场,然后是定界定级的结果,还有根因定位的结果以及快速恢复。

异常现场主要呈现出这一次开工单的原因到底是什么,触发的指标和日志到底是什么样的,来方便运维人员在接手工单时快速了解问题的背景。然后是定界定级的结果,会具体呈现出这一次异常的影响面,以及算法得到的分级过程。根因定位会展现出多 Agent 框架定位的结果,我们现在会得到根因模块的结论,同时大模型也会提供出得到这个结论的推理依据。同时对于每个模块 Agent,我都可以点开详情查看它的工具调用情况。最后快速恢复的部分,我们现在还在相对比较初步的阶段。目前主要是做的是检索历史的相似工单,这样运维人员可以在新的工单里直接点击跳转到历史工单里查看当时的处理策略,从而对这一次的异常处置提供一定的参考。

我们可以整体来看一下整个异常处置平台在我们线上应用的真实效果。首先当异常发生时,运维人员会在钉钉上收到卡片的通知,根据告警等级的不同,卡片也会呈现出不同的颜色,直观看出异常的严重程度。如果异常没有被及时处置,它的影响面可能会不断扩大,它可能会从黄灯变成红灯,这个卡片的颜色也会随之动态变化。

另外当工单被运维人员接手进行处置时,我们可以在工单上实时看到它的处置进度,方便整个群里的人都了解整个异常的处置情况。

运维人员收到这个卡片后,他可以点击对应的链接跳转到异常工单的页面上,可以看到异常的现场,包括具体的曲线以及曲线到底是从哪个时刻开始有这个异常点。

然后在异常影响面的分析部分,我们可以看到这次的异常到底影响了哪些客户,我们会在这里列出具体的客户信息。同时我们也能看到这个客户这次受影响的实例在我们这次异常里的占比。在最下方,我们会呈现多 Agent 的根因定位结论。首先会得到明确的定界和定位结果,以及这个结果的核心依据。下面我们可以看到每个模块 Agent 的独立结果,点击详情就可以进一步看这个模块到底调用了哪些工具,以及这些指标日志的检测的情。实际上我们经常会出现多个模块 Agent 都觉得自己出问题了,都可能觉得自己是根因这样的情况,但我们最终的系统 Agent 还是会根据各个模块之间的潜在拓扑关系得到更加明确的结论,最终它给出的结论只会是最终根因的那个模块。

总结和展望

这次分享,我们首先从大数据运维的业务背景出发,来给大家介绍了我们在异常处置环节到底都面临着哪些挑战,包括我们怎样全面检测出这些异常,以及怎么面对告警风暴,真正剥离出其中关键的信息,帮助运维人员更好地分配注意力,以及最后我们在异常发生时怎么快速定位到问题的根因。

然后我们具体介绍了我们怎样利用 AI 技术来逐一攻破这些挑战,包括建设多种类型的异常检测算法,以及通过影响面的分析还有问题的定界来帮助我做更加精细化的告警分级。最后我们还引入了多 Agent 的根因定位框架,来模拟现实当中的故障处置小组实现根因模块的定位,并且给出它的推理依据,让我们的大模型推理不再是黑盒。前面提到这些算法技术都是通过 PAI-EAS 部署成在线服务的方式来供其他的系统和大模型应用层来进行进一步的调用。

而我们大模型服务层本身则是依靠百炼这个平台来进行构建和部署的,最终这些算法服务层和大模型服务层共同支撑了最上层的异常处置平台,真正把 AI 能力集成到平台和产品里,整合到运维人员日常的工作流里,发挥出真正的提效作用。

最后我们来对下一步的规划做展望。首先我们会进行异常处置能力整体的补全,会从现在事中的异常发现,一步向前延展,做风险预防。我们整体的思路是希望纳入更多海量数据来做故障的提前预警,这方面带来的技术挑战会更大,可能会涉及告警本身时空相关性的挖掘等技术。

在根因定位之后,我们还会打造真正的预案推荐,因为只有真正推荐出了可能的预案,才有可能走到最终的自愈环节,做到处置的自动化闭环。预案推荐在某种程度上也依赖根因定位的精细度。目前我们的根因定位也只能做到一级的模块,后面我们会进一步做到二级模块,来让整个根因定位更加明确具体,让它最终的关联动作可以更加明确。

除了异常处置能力的补全外,我们还会进行 Agent 的能力增强,包括自主编排、可靠性的提升,我们还有很多的策略需要尝试,来进一步保证它的结果是靠谱,并且性能是足够优的。还有工具能力的拓展,我们现在主要是把现有的运维平台上面的工具还有作业去兼容 MCP 这样的协议,使得 Agent 具备更强的系统兼容性。

最后是交互体验的优化以及人工反馈的增强。要让大模型能够得到令人满意的效果,人的实时反馈是非常重要的,包括现在很多像 Manus 这样的组件,都会在生成 plan 之后允许用户有机会做调整,这对最终结果的准确性非常关键。所以我们整体的交互模式的变化,以及后续怎样利用人工的反馈来持续优化后面的迭代,让大模型真正做到越用越聪明,是非常关键的问题。

整体来说,我觉得大模型技术和 AI 技术的发展可以用日新月异来形容,它也给我们智能运维领域带来了很多技术上面的突破,我也非常期待我们能够有更多的成果来做进一步的分享,感谢大家。

阿里云计算平台正急招智能运维算法专家,岗位链接,也可直接投递简历至:congrong.zyy@alibaba-inc.com,欢迎加入我们。

嘉宾介绍

张颖莹,阿里云算法专家,阿里云计算平台智能运维算法团队负责人,在智能运维领域深耕 8 年。用产品和服务支撑计算平台 MaxCompute、Flink、Dataworks、PAI 等多个大数据 &AI 产品的智能化运维。多项研究成果被 ICLR,KDD,VLDB, SIGMOD, ICDE,WWW, CIKM,ICASSP 等国际顶会接收,并带领团队获得了 ICASSP 国际智能运维算法大赛冠军。曾受邀在 QCon,ArchSummit,DataFunCon,FlinkForward 等大会发表演讲,同时参与了阿里巴巴开源大数据运维平台 SREWorks 开发和信通院《智能运维能力成熟度模型》行业标准编写。

活动推荐

2026,AI 正在以更工程化的方式深度融入软件生产,Agentic AI 的探索也将从局部试点迈向体系化工程建设!

QCon 北京 2026 已正式启动,本届大会以“Agentic AI 时代的软件工程重塑”为核心主线,推动技术探索从「AI For What」真正落地到可持续的「Value From AI」。从前沿技术雷达、架构设计与数据底座、效能与成本、产品与交互、可信落地、研发组织进化六大维度,系统性展开深度探索。QCon 北京 2026,邀你一起,站在拐点之上。

在许多企业中,ITSM 系统、IT 工单管理系统 以及 ITIL 流程 的落地,往往被视为一项阶段性成功:系统上线了,流程跑起来了,指标也能在仪表板上“交差”。

然而,另一种声音却在业务侧反复出现——“流程是规范了,但事情并没有更好办”“找 IT 还是慢”“体验反而更复杂了”。这种割裂感,几乎贯穿了所有规模的组织。

问题并不在于 ITSM 是否有价值,而在于:ITSM 的“成功标准”,往往只在 IT 视角成立。

当“项目成功”不等于“服务成功”

在 IT 团队内部,ITSM 项目通常围绕一组清晰、可量化的目标推进:

-工单是否全部纳入系统

-事件、问题、变更流程是否符合 ITIL 要求

-SLA 是否达标

-报表是否可视化

从项目管理角度看,这些目标完全合理。但问题在于,它们更多衡量的是系统运行是否“合规”,而不是服务交付是否“有效”。

这正是 ITSM 项目最常见的第一个断层:指标完成 ≠ 服务被认可。

ITSM 成功的最大误区:把“管理”当成“服务”

从根本上说,ITSM 失败的原因并不是工具能力不足,而是视角错位:

IT 关注的是可控性,而业务关注的是可用性。

当 ITSM 只用于“规范 IT 行为”,而未用于“优化业务体验”,即便系统再先进,业务满意度也难以提升。

从“IT 视角成功”到“业务视角成功”的转化模型

要真正解决“ITSM 看起来成功,但业务依然不满意”的问题,关键并不在于增加流程或工具功能,而在于重新定义什么才是成功。

成熟组织通常会采用一种“双层指标模型”,例如 ManageEngine卓豪 ServiceDesk Plus将 ITSM 的技术指标映射到业务结果上。

Q1:为什么 ITSM 上线后业务满意度反而下降?

通常是流程复杂度上升、体验未同步优化,导致业务感知成本提高。

Q2:SLA 达标是否还能作为核心指标?

可以,但必须与业务影响指标结合,否则容易产生误导。

Q3:ITSM 如何支撑跨部门服务?

关键在于统一入口、共享上下文以及可编排的工作流能力。

Q4:中小企业是否需要这么复杂的 ITSM?

不是复杂,而是适配。规模越小,越需要避免过度设计。

在数字化转型浪潮中,CRM(客户关系管理)系统已从“销售工具”升级为“企业全域增长引擎”——不仅要解决“获客 - 销售”的基础流程,更要串联“上下游协作 - 生产交付”的全链路闭环。本文选取超兔一体云、Oracle CX、Capsule CRM、Bitrix24、Brevo、励销云、探马SCRM、Odoo CRM、YetiForce、Dolibarr10款主流CRM/ERP产品,从获客/市场、销售管理、上下游管理、MES生产管理四大核心维度展开深度对比,为不同规模、不同行业的企业提供选型参考。

一、核心能力框架:4大维度的底层逻辑

在对比前,先明确4大维度的底层价值逻辑——企业的增长需要“从获客到交付”的全链路闭环,每个维度都对应着闭环中的关键环节:

  • 获客/市场:解决“流量从哪来、线索怎么转”的问题,核心是“精准触达 + 高效转化”;
  • 销售管理:解决“线索如何变成订单”的问题,核心是“流程标准化 + 效率提升”;
  • 上下游管理:解决“订单如何落地”的问题,核心是“生态协同 + 数据打通”;
  • MES生产管理:解决“产品如何交付”的问题,核心是“销售需求与生产的联动”。

二、核心维度深度对比

(一)获客/市场:从“流量覆盖”到“精准转化”的能力分层

1. 各品牌能力拆解

品牌获客/市场核心能力优势场景
超兔一体云多渠道集客(百度/巨量、官网/微信、地推/会销、工商搜客);线索一键处理 + 分配提醒;营销物料(话术/文件/竞品)toB/toC混合场景、需要全渠道覆盖的中小微企业
Oracle CX数据驱动(CDP整合多渠道线索);AI个性化营销(跨渠道触达);营销自动化(活动编排 + 效果优化)大型企业、需要精准营销 + 数据沉淀的高科技/制造行业
Capsule CRM无明确获客功能(仅官网提“赢更多交易”)小型企业、无需复杂获客工具,聚焦销售转化
Bitrix24线索获取(邮件营销、表单生成器);多渠道线索整合团队协作型企业、需要基础营销工具的中小微企业
Brevo强营销自动化(邮件/短信触达、客户分群);多渠道效果评估依赖线上营销的企业、需要批量触达 + 转化追踪的电商/ SaaS行业
励销云AI电话机器人(日呼千次);LBS定位筛选高意向客户;线索清洗 + 外呼电销型企业、需要高效获客的toB行业(如金融/教育)
探马SCRM微信生态深度集成(社群裂变、客户标签/行为轨迹);社交化营销依赖微信获客的企业、需要私域运营的零售/服务行业
Odoo CRM营销自动化(活动编排);线索管理(自定义字段/报表);与ERP集成技术型企业、需要开源定制 + 一体化管理的制造/贸易行业
YetiForce营销活动管理;线索追踪(自定义字段)有技术团队的企业、需要基础营销功能的中小微企业
Dolibarr线索管理(邮件营销、基础表单);与ERP集成小型制造/贸易企业、需要基础获客工具的低成本需求

2. 关键流程可视化:超兔一体云获客流程

暂时无法在飞书文档外展示此内容

3. 雷达图评分(10分制)

品牌获客/市场
超兔一体云9
Oracle CX8
Brevo7
励销云8
探马SCRM7
Odoo CRM7
Bitrix246
YetiForce6
Dolibarr5
Capsule CRM3

(二)销售管理:从“流程标准化”到“效率提升”的能力差异

1. 各品牌能力拆解

品牌销售管理核心能力优势场景
超兔一体云客户中心(个性化配置 + 生命周期 + 查重);多种跟单模型(小单快单/商机/多方项目);合同订单(多模型 + 财务管控)中小微企业、需要适配不同业务场景(小单/长单/项目)的制造/服务行业
Oracle CX销售流程自动化(线索→商机→CPQ→合同);AI定价/订单优化;销售绩效(预测 + 目标管理)大型企业、需要复杂流程 + 绩效管控的高科技/制造行业
Capsule CRM极简易用(联系人/机会跟踪、任务提醒);单一客户视图(整合互动记录)小型企业、无需复杂功能,聚焦销售跟进的零售/服务行业
Bitrix24销售漏斗可视化;商机跟踪;任务提醒团队协作型企业、需要基础销售工具的中小微企业
Brevo基础销售流程(线索→商机→订单);客户管理依赖线上销售的企业、需要简单流程的电商/ SaaS行业
励销云客户查重(防撞单);SCRM(客户标签/行为);销售流程自动化电销型企业、需要避免撞单 + 客户分层的金融/教育行业
探马SCRM销售漏斗(社交化机会跟踪);客户生命周期(微信互动记录);任务提醒依赖微信销售的企业、需要私域转化的零售/服务行业
Odoo CRM销售管道(可视化跟踪);CPQ报价管理;与ERP/财务集成技术型企业、需要一体化管理的制造/贸易行业
YetiForce销售漏斗;合同管理;客户服务工单有技术团队的企业、需要基础销售功能的中小微企业
Dolibarr客户订单管理;与库存/财务联动小型制造/贸易企业、需要基础销售 + 库存协同的低成本需求

2. 关键流程可视化:Oracle CX销售流程

暂时无法在飞书文档外展示此内容

3. 雷达图评分(10分制)

品牌销售管理
超兔一体云9
Oracle CX9
Odoo CRM8
探马SCRM8
励销云7
Bitrix247
YetiForce7
Capsule CRM6
Dolibarr6
Brevo5

(三)上下游管理:从“内部管控”到“生态协同”的能力进阶

1. 各品牌能力拆解

品牌上下游管理核心能力优势场景
超兔一体云OpenCRM平台(连接内部CRM与上下游);上下游协作(报价/订单/对账/物流);三流合一需要供应链协同的中小微企业、toB项目型业务(如设备制造/工程)
Oracle CXPRM(合作伙伴关系管理);与Oracle ERP深度集成(库存/订单/交付)大型企业、需要复杂生态协同的制造/零售行业
Capsule CRM小型企业、无需上下游协作
Bitrix24项目协作模块(间接管理外部合作)团队协作型企业、需要基础协作的中小微企业
Brevo依赖线上销售的企业、无需上下游协作
励销云电销型企业、无需上下游协作
探马SCRM依赖微信销售的企业、无需上下游协作
Odoo CRM通过ERP模块扩展(供应商管理、采购流程)技术型企业、需要一体化供应链管理的制造/贸易行业
YetiForce集成第三方工具(如ERP)有技术团队的企业、需要基础协作的中小微企业
DolibarrERP模块(供应商管理、采购流程)小型制造/贸易企业、需要基础供应链协同的低成本需求

2. 关键流程可视化:超兔OpenCRM上下游协作流程

暂时无法在飞书文档外展示此内容

3. 雷达图评分(10分制)

品牌上下游管理
超兔一体云8
Oracle CX7
Odoo CRM6
Dolibarr5
Bitrix244
YetiForce3
Brevo3
励销云3
探马SCRM3
Capsule CRM2

(四)MES生产管理:从“销售驱动”到“生产协同”的能力闭环

1. 各品牌能力拆解

品牌MES生产管理核心能力优势场景
超兔一体云轻量化MES(排程/报工/质检/入库);与CRM联动(销售订单→生产排产);MRP物料计算中小微生产企业、需要销售 - 生产一体化的制造/装配行业
Oracle CX集成第三方MES/ERP(销售订单同步生产);生产进度反馈客户服务大型企业、需要生产 - 客户联动的高科技/制造行业
Capsule CRM小型企业、无需生产管理
Bitrix24团队协作型企业、无需生产管理
Brevo依赖线上销售的企业、无需生产管理
励销云电销型企业、无需生产管理
探马SCRM依赖微信销售的企业、无需生产管理
Odoo CRM安装MES模块(生产计划/工单/设备监控);与ERP集成技术型企业、需要开源定制的制造/装配行业
YetiForce有技术团队的企业、无需生产管理
Dolibarr插件扩展(社区支持有限)小型制造企业、需要基础生产功能的低成本需求

2. 关键流程可视化:超兔MES - CRM联动流程

暂时无法在飞书文档外展示此内容

3. 雷达图评分(10分制)

品牌MES生产管理
超兔一体云9
Odoo CRM7
Oracle CX6
Dolibarr4
YetiForce2
Bitrix242
其他品牌1

三、综合能力雷达图:各品牌的“长短板”

基于4大维度的评分,各品牌的综合能力可通过雷达图直观呈现(10分制,维度:获客/市场、销售管理、上下游管理、MES生产管理):

品牌获客/市场销售管理上下游管理MES生产管理综合定位
超兔一体云9989中小微企业“一体化增长引擎”,覆盖全链路闭环
Oracle CX8976大型企业“数据驱动型CRM”,聚焦精准营销 + 流程自动化
Odoo CRM7867技术型企业“开源定制平台”,适合需要一体化管理的制造/贸易行业
探马SCRM7831微信生态“私域运营工具”,适合依赖微信获客的零售/服务行业
励销云8731电销型企业“高效获客工具”,适合需要批量触达的toB行业
Brevo7531线上营销“自动化工具”,适合依赖邮件/短信的电商/ SaaS行业
Bitrix246742团队协作“基础CRM”,适合需要简单工具的中小微企业
Dolibarr5654小型企业“低成本ERP + CRM”

四、总结与建议

在企业数字化转型的进程中,选择适合自身的CRM系统至关重要。不同品牌的CRM系统在获客/市场、销售管理、上下游管理和MES生产管理等核心维度上各有优劣。

对于中小微企业而言,如果希望实现全链路闭环管理,超兔一体云是一个不错的选择,它在各个维度都有出色的表现,能够为企业提供一体化的解决方案,助力企业全面提升运营效率。大型企业若追求精准营销和复杂流程的自动化管理,Oracle CX则凭借其强大的数据驱动能力和完善的流程管控体系,成为理想之选。技术型企业可考虑Odoo CRM,其开源定制的特性能够满足企业对一体化管理的个性化需求。

依赖微信生态获客的零售/服务行业,探马SCRM的私域运营功能可以帮助企业更好地管理客户关系;电销型企业使用励销云的高效获客工具,能够提高销售效率;而依赖线上营销的电商/SaaS行业,Brevo的营销自动化功能则能发挥重要作用。团队协作型中小微企业可选择Bitrix24作为基础的CRM工具,小型制造/贸易企业对于低成本的基础获客和销售管理需求,Dolibarr是一个合适的选择;小型企业若仅需要简单的销售跟进功能,Capsule CRM的极简易用特性能够满足其需求。

企业在选型时,应充分评估自身的规模、行业特点、业务需求以及数字化转型的目标,综合考虑各品牌的“长短板”,做出最适合自己的决策,从而让CRM系统真正成为企业全域增长的强大引擎。

(注:文中功能相关描述均基于公开披露信息,具体功能服务以厂商实际落地版本为准。)

我之前关注的一个博主,叫许四多,他是玩滑板,然后跟签证官聊滑板就过了美签,但我不确定是不是因为这些特别酷的小爱好之类的,因为毕竟他之前也不是白本。

以前 v 友说 mac 的内存 16G 当 32G 用真的没骗我

windows 笔记本我这样用开 20 几个网页+一切工具,16G 就不行了;后来加了 32G+16G 才够我的使用

mac 开这么多程序,还能再打开程序,牛逼;不过网页还是不敢开多了,需要习惯性的存标签

image

(只是说下安装 windows 时候遇到的恶心事情,每个问题我都知道有办法绕过,不是来问各位解决方案的)

昨天安装了 windows11 ,发现安装过程本身有很多反人类的行为啊。

我是通过 winPE 中 winNT32Setup (大概是这个名字)安装的 windows ,nvme 部署 windows image 的速度很快,好不夸张的说,我端起杯子喝了一口水,把杯子放回桌上,部署已经完成了 95%,整个过程 30 秒差不多,相当舒适。

重启后进入 windows oobe 阶段,麻烦来了。找不到网卡驱动,这是预料之内的,因为我是 10Gbps PCIe 光卡,找不到很正常。但此时有些版本的系统会在下方提供 i don't have internet 的选项,有些则不会。因为接口很多,懒得后面再进计算机管理手动安装驱动,所以这步我选择了安装驱动。

oobe 阶段有网和没网是两个东西,如果没有网,各种设置完成,你能在 3-5 分钟内进入桌面。可我选择了联网,当我点击下一步后,windows 开始了更新。。。这一步占了 oobe 的大头,原来 5 分钟能进去桌面,就因为更新,卡在这步有 45 分钟。各位也知道国内网络不稳,曾经有出现过我把网断了,下载进度条一段时候还走的情况,甚至都触发不了超时。

我全新安装的系统,在 oobe 阶段开始联网更新,要知道,账号信息都没设置,只能干等着他更新完,颇有种全新仅大修的感觉。是,我知道我 iso 是 22h2 ,不是最新的 25h2 ,但至少让我先进去桌面再更新吧?更新 windows 也不是什么必须的事情,为什么要在 oobe 阶段做这个事情?我不反对 windows 更新,也希望我的机器保持最新,但 oobe 阶段更新,意味着我所有后续设置都不能做,只能等着他完成。

45 分钟后,windows 更新完成了,重启了两次,和我再次重装了系统一样。下一步,设置账户,我安装的是 pro for workstation ,在登陆界面,我选择登陆选项,改成了加入 ad 域控,绕开了登录账号。

我自己的机器,为什么必须要登陆微软的账号呢?再说,我买的机器,不可以全家一起用么?这么想来全家都用我的账号也不合适吧,而且也没有必要分开建立单独的账号啊。

oobe 阶段结束,进入了桌面,windows 更新提示我,有 5-10 个系统更新。嗯?我不李姐,刚刚不是才结束了全新仅大修?花了 45 分钟更新之后的系统,又提示我要更新。

又更新完重启了一次,正常进去桌面。菜单里看到一堆 app 被安装了,onedrive ,copilot ,etc 。尤其是 onedrive ,默认安装,435MB ,想当于 0.5GB 的应用,我完全不用,为什么要预装。

==========

想想当年的 windows10 ,windows7 ,哪个里面有广告性质的程序,以及疯了一样的 windows 更新?明明可以在 oobe 结束后更新来提升用户体验,反而做了最恶心的事情。

日常我都在使用 macOS 和 ubuntu ,用 windows 唯一的原因是打游戏,这个避不开,Linux proton 支持了大部分 steam 游戏,但这仅限于单机游戏,至于国内经常玩的网游,全都由于反作弊的原因没有一个能上 linux 的,只要反作弊这个问题不解决,那么游戏永远依赖 windows 。

微软把 windows 弄的这么恶心,我却没有丝毫办法。至于怎么绕过以上种种那是后话,这种事情就不该出现在一个操作系统上。

等我哪天不打网游了,ubuntu 可以完美替代 win ,他将会只活在我记忆当中。

在大多数企业的数字化进程中,ITSM 系统 与 IT 工单管理系统 的引入,往往始于一个非常现实的需求: 统一入口、减少混乱、提升响应效率。 然而,当组织规模扩大、业务复杂度上升、系统数量激增之后, 单一工具所能承载的价值很快触及上限。

此时,IT 服务管理面临的已不再是“有没有系统”的问题, 而是系统是否具备平台化能力: 能否整合多类服务、统一服务体验、沉淀治理规则, 并最终演进为支撑全组织运行的服务中台。

ManageEngine卓豪 将围绕“平台化 IT 服务管理”这一主题, 系统拆解企业从工具堆叠走向服务中台的演进逻辑, 并结合实践经验,解析这一转型过程中常见的误区、关键能力与落地路径。

为什么“多工具并存”终将走向失控

在 IT 服务管理早期阶段,工具堆叠几乎是不可避免的结果。 服务台、资产管理、监控、权限管理、协作工具各自独立建设, 在短期内确实能够解决局部问题。

平台化 IT 服务管理的本质是什么

平台化并不意味着“一个系统替代所有系统”, 而是通过统一的服务抽象层, 将分散的能力整合为一致、可治理、可扩展的服务体系。

在平台化 ITSM 模式下,服务不再以“系统”为中心, 而是以“服务对象”和“服务结果”为核心进行组织。 用户无需关心背后涉及多少工具, 只需通过统一入口发起请求并获得结果。

平台化 IT 服务管理的典型应用场景

当 ITSM 演进为服务中台,其价值将体现在多个高频场景中。

例如,在员工入职场景下,服务中台能够自动编排账号创建、 设备配置、权限分配与安全校验, 避免传统人工交接带来的延误与风险。

在变更管理场景中,平台化 ITSM 可以基于历史数据与风险规则, 动态调整审批路径与控制策略, 而非依赖固定模板。

这些能力的共同特点在于:将复杂的跨系统操作封装为标准化、可复用的服务能力。

平台化 IT 服务管理背后的组织与治理模型

当 IT 服务管理完成从“工具集合”向“平台能力”的转型后, 真正的挑战往往不再来自技术本身,而是组织与治理方式是否能够同步进化。 如果仍然沿用传统的职能割裂式管理模式, 即便拥有再先进的平台,也难以释放其长期价值。

平台化 IT 服务管理强调的是服务视角下的责任重构。 这意味着 IT 不再只是被动响应请求的执行者, 而是以“服务能力提供者”的身份参与业务运行。

ServiceDesk Plus 如何支撑 IT 服务中台化建设

在众多 ITSM 工具中, ServiceDesk Plus 之所以被广泛应用于中大型组织, 正是因为其设计理念并未局限于“工单工具”, 而是围绕平台化与扩展性进行构建。

通过统一的服务目录、灵活的流程引擎、 低代码业务规则以及丰富的集成能力, ServiceDesk Plus 能够将分散的 IT 能力 逐步整合为一致的服务体验。

更重要的是,该平台支持在不破坏既有流程的前提下, 逐步引入自动化、治理规则与数据洞察, 非常适合作为服务中台建设的核心枢纽。

平台化 IT 服务管理是否适合中小企业?

平台化并非规模专属。 中小企业同样可以从统一入口、流程整合和自动化中受益, 关键在于循序渐进,而非一次性重构。

平台化 ITSM 是否会增加系统复杂度?

短期内可能需要一定规划成本, 但长期来看,平台化恰恰是为了解决工具堆叠带来的复杂性问题。

服务中台是否意味着完全自动化?

并非如此。 服务中台的目标是“合理自动化”, 在关键节点保留人工决策能力。

如何判断组织是否已具备平台化条件?

当组织开始关注服务一致性、 跨系统协同与治理能力时, 通常已经站在平台化转型的起点。

在大多数企业的数字化进程中,ITSM 系统 与 IT 工单管理系统 的引入,往往始于一个非常现实的需求: 统一入口、减少混乱、提升响应效率。 然而,当组织规模扩大、业务复杂度上升、系统数量激增之后, 单一工具所能承载的价值很快触及上限。

此时,IT 服务管理面临的已不再是“有没有系统”的问题, 而是系统是否具备平台化能力: 能否整合多类服务、统一服务体验、沉淀治理规则, 并最终演进为支撑全组织运行的服务中台。

ManageEngine卓豪 将围绕“平台化 IT 服务管理”这一主题, 系统拆解企业从工具堆叠走向服务中台的演进逻辑, 并结合实践经验,解析这一转型过程中常见的误区、关键能力与落地路径。

为什么“多工具并存”终将走向失控

在 IT 服务管理早期阶段,工具堆叠几乎是不可避免的结果。 服务台、资产管理、监控、权限管理、协作工具各自独立建设, 在短期内确实能够解决局部问题。

平台化 IT 服务管理的本质是什么

平台化并不意味着“一个系统替代所有系统”, 而是通过统一的服务抽象层, 将分散的能力整合为一致、可治理、可扩展的服务体系。

在平台化 ITSM 模式下,服务不再以“系统”为中心, 而是以“服务对象”和“服务结果”为核心进行组织。 用户无需关心背后涉及多少工具, 只需通过统一入口发起请求并获得结果。

平台化 IT 服务管理的典型应用场景

当 ITSM 演进为服务中台,其价值将体现在多个高频场景中。

例如,在员工入职场景下,服务中台能够自动编排账号创建、 设备配置、权限分配与安全校验, 避免传统人工交接带来的延误与风险。

在变更管理场景中,平台化 ITSM 可以基于历史数据与风险规则, 动态调整审批路径与控制策略, 而非依赖固定模板。

这些能力的共同特点在于:将复杂的跨系统操作封装为标准化、可复用的服务能力。

平台化 IT 服务管理背后的组织与治理模型

当 IT 服务管理完成从“工具集合”向“平台能力”的转型后, 真正的挑战往往不再来自技术本身,而是组织与治理方式是否能够同步进化。 如果仍然沿用传统的职能割裂式管理模式, 即便拥有再先进的平台,也难以释放其长期价值。

平台化 IT 服务管理强调的是服务视角下的责任重构。 这意味着 IT 不再只是被动响应请求的执行者, 而是以“服务能力提供者”的身份参与业务运行。

ServiceDesk Plus 如何支撑 IT 服务中台化建设

在众多 ITSM 工具中, ServiceDesk Plus 之所以被广泛应用于中大型组织, 正是因为其设计理念并未局限于“工单工具”, 而是围绕平台化与扩展性进行构建。

通过统一的服务目录、灵活的流程引擎、 低代码业务规则以及丰富的集成能力, ServiceDesk Plus 能够将分散的 IT 能力 逐步整合为一致的服务体验。

更重要的是,该平台支持在不破坏既有流程的前提下, 逐步引入自动化、治理规则与数据洞察, 非常适合作为服务中台建设的核心枢纽。

平台化 IT 服务管理是否适合中小企业?

平台化并非规模专属。 中小企业同样可以从统一入口、流程整合和自动化中受益, 关键在于循序渐进,而非一次性重构。

平台化 ITSM 是否会增加系统复杂度?

短期内可能需要一定规划成本, 但长期来看,平台化恰恰是为了解决工具堆叠带来的复杂性问题。

服务中台是否意味着完全自动化?

并非如此。 服务中台的目标是“合理自动化”, 在关键节点保留人工决策能力。

如何判断组织是否已具备平台化条件?

当组织开始关注服务一致性、 跨系统协同与治理能力时, 通常已经站在平台化转型的起点。

哈啰 v 友们,中午好。接上篇/t/1187822 小游戏《潜艇进击》抖音版也发布了。

这次继续送积分,大家在空间复制 UID 放下面,后台我给大家每人发 500 积分。可以去商店使用积分兑换特种武器,胜率更高,非常好玩。

放下抖音小游戏码,扫码可以直达(或者抖音直接搜索“潜艇进击”)。

期待可以得到大家的试玩,十分感谢。

终于到我水贴了

临近年前活少了, 最近在自己给自己找事做, 不然周报没法写.

这两天心血来潮,断断续续用 claudeCode 搭配 glm4.7 把公司快 7 年的许久没更新的官网给重构了, 使用下来就前端来说 glm 有 cc 九成功力不夸张.

前后大概 20 个页面,基本上 glm 都能很不错的完成迁移重构任务.

  • 老官网是 react16+js, 快 7 年没大改的老项目了, 我迁移到了 vue3+vite7+ts
  • 我最常说的话是"继续实现剩下的页面"
  • glm 最常犯的错误是各种"margin/padding 边距问题", 以及 css 的未生效问题(被直接迁移过来的全局样式覆盖)
  • 全程只碰到了一个轮播图的复刻,是 glm 死活没法复刻的, 因为原代码写的稀碎. 我跟 glm 纠缠了大概 1 个小时它就是改不对, 不是偏移就是丢失动画. 之后我切换到了转发 api 的 claudeCode api 满共说了三句修改好了~~~, 但是费用也感人花了 5 块钱

这个应该算是我第一个商业的纯 ai 练手项目, 综合体验下来 glm 的确是可以作为备用甚至主力辅助方案的.

便宜效果不错, 因为是国产还能直接在公司及部门内部推广.

花费

glm 这边我花了 900 万的 token, 按纯 api 套餐 1000 万 19.9 的花费来说, 也就是差不多 20 块钱.

我是 200 包年的 lite 套餐, 所以算下来会更便宜, 很划算.

时间方面, 第一天下班前我用满了 5 小时消耗, 下一次的刷新时间还有 40 分钟, 就没有在继续干活了.

所以如果是同一时间一个人单一项目使用的话, lite 套餐是绝对划算够用的.

转发 api 花费了 20 万 token, 消耗是 26 块钱. cc 转发 api 的确是贵啊. 修一个轮播图就 5 块钱, 但是效果的确拔群 glm1 小时没折腾好的,切换 cc 不到 10 分钟搞定.

花絮

在重构过程中, 还顺手让 glm 帮忙处理了下业务妹子的问题, 把一个 700mb 的 excel 里的 E 列的图片导出来并用 B 列的名称重命名. 这种临时一次性的代码, 往次都是边跟妹妹聊天边写脚本做的, 这次也是一句话 glm10 分钟搞定了, 没有二次对话一遍过.

效果的确是好的多, 业务妹子还问我 wps 的 ai 有没有这效果... 我说 wps 的 ai 就不用考虑了...

众所周知,我们可以为域名申请SSL证书,那么没有域名可以申请SSL证书吗?使用IP地址的网站可以申请SSL证书实现HTTPS加密吗?下面我们将详细介绍。

没有域名可以申请SSL证书吗?

当然可以。没有域名,只有IP地址,可以通过IP地址来申请SSL证书。我们平时访问域名,实质上是在通过访问域名背后的服务器IP地址进入一个网站。因此,对于那些没有域名只有IP地址的网站,可以通过IP地址来申请SSL证书,通常这类证书我们称之为IP SSL证书.IP SSL证书为只能通过IP地址访问的企业解决了其数据传输安全问题,还可帮助用户识别企业网站身份真伪。

IP证书申请流程

一、打开JoySSL的官方网站,注册一个账号。在注册过程中只需填写基本信息即可。重要的是最后一栏注册码务必填写230970才可以获取免费测试公网、内网IP地址HTTPS的资格。

二、选择IP地址SSL证书并试用,填写相关申请信息,包括IP地址、联系人姓名、联系电话和电子邮箱等。

三、提交申请后,JoySSL会自动生成CSR,并按照系统提示选择服务器文件验证IP地址所有权。

四、一旦您的申请通过验证,10分钟左右,JoySSL会生成并签发HTTPS证书。签发后,您在JoySSL的证书管理页面上下载已签发的证书文件。

五、根据您使用的服务器软件(如Apache、Nginx、IIS等),按照相应的配置指南将证书文件和私钥文件配置到服务器上。

六、使用浏览器访问您申请证书的IP地址,检查浏览器是否显示绿色的安全锁图标,并且地址栏以“https://”开头。如果一切正常,您应该能够安全地访问该IP地址提供的服务。

基于 tmux / tui 的,比如我同时用 codex 、gemini 、cc ,我可以三个 agent 来回切,每个 agent 支持绑定多个 api key (比如,不同目录下,单独配置 ANTHROPIC_KEY 和 ANTHROPIC_BASE_URL )

昨天,Kimi 2.5 发布,我用 Kimi Agent 帮我收集 Kimi 2.5 的资料和信息,然后帮我做一个介绍 Kimi 2.5 的网站。

Kimi Agent 先去搜集了信息,然后开始做网站,做网站的过程有几个点值得说下:

  1. Kimi Agent 内置了做网站的 skill ,它直接用这个来帮我做网站,出来的网站效果很不错
  2. 网站中涉及到的图片它也会自动来生成,这点蛮不错的
  3. Kimi 2.5 生成的 UI 效果大大超出我的预期,这个是最终效果: https://kimi-k25.com/

用了 Kimi Agent 我的几个感受:

  1. 比 Manus ,claude cowork 低很多的价格,但是效果也是不错的,而且充值 4.9 就可以先体验七天。
  2. Kimi 2.5 多模态能力以及 coding 能力还可以的,作为 Gemini Pro ,claude 和 gpt 5.2 codex 模型的替代也是不错的,国产模型越来越好了。