包含关键字 typecho 的文章

​1分钟速览

开源 OCR / 文档解析在 demo 阶段表现良好,是因为你验证的是“算法是否可行”; 而在真实项目中出问题,是因为你真正需要的是“一个可长期运行的工程系统”。

这不是你当初判断失误,而是项目进入了必须升级文档底座的阶段

当你开始在解析层遇到不可控问题时,真正要问的已经不是

“还能不能再调一调”,

而是:

这个能力,是否已经到了必须交给生产级系统来承担的时候。

当我们构建一个需要处理文档的AI系统时,选择技术栈的第一个决策点往往是文档解析。许多团队的开局惊人相似:选择一个流行的开源OCR工具,快速搭建演示原型,看着它流畅地识别测试文档中的文字和表格,然后满怀信心地推进项目。

然而,当项目真正进入生产阶段,面对成千上万的真实文档时,最初的信心往往开始动摇。

如果你正在推进下面这类项目:

  • 集团级 知识库 / AI 中台
  • 面向业务的 RAG / 文档 Agent
  • 审计、法务、科研等 文档密集型系统

那你很可能遇到过一个相同的现象:

开源 OCR / 文档解析在 demo 阶段表现不错,但一进入真实项目,问题就开始集中暴露。

这并不罕见,也并不意味着你当初的技术判断是错误的。

这不是某个工具的问题,而是一个“阶段错配”的问题

一、为什么在 demo 阶段,开源方案是“合理选择”?

在项目早期,也就是概念验证阶段,大多数团队的验证目标非常清晰且有限:

  • 能不能识别文字?
  • 表格结构大致对不对?
  • 能不能接到下游模型里跑通一条链路?

此时的文档样本通常经过挑选,它们是清晰的扫描件、结构简单的表格,其特征也较为明显:

  • 样本量小
  • 文档相对干净
  • 格式单一、可控
  • 人工肉眼校验即可

在这个阶段,开源OCR或文档解析工具往往表现良好,完全可以满足需求

  • 成本优势明显(零直接成本)
  • 快速集成能力
  • 社区支持与可定制性
  • 满足“看起来有效”的演示需求

从技术决策角度看,这个选择是理性的

问题不出在这里,但也埋下了一个种子:团队验证的是“算法是否工作”,而非“系统能否稳定运行”。

二、什么时候问题开始出现?不是“用久了”,而是“换阶段了”

真正的问题不随时间线性出现,而是在项目跨越某个临界点时集中爆发。这个分水岭通常出现在项目进入以下状态之一时:

  • 文档规模开始上量(成千上万页)

    • 从几十个样本文档到数万页的实际业务文档,处理压力从算法层面转移到工程层面。
  • 文档类型开始混杂

    • 不同年代的扫描件(从高清到低分辨率)
    • 多语言混合文档
    • 复杂表格(尤其是跨页表格)
    • 手写注释与印刷体混合
  • 解析结果被多个下游系统依赖

    • RAG
    • 信息抽取
    • 审核、比对
    • 数据入库

在一些科研、法务、审计类项目中,单个文件就可能是上千页,而且对准确率有明确业务责任。
这时,团队往往会发现:

demo 阶段没暴露的问题,开始以“不可预测”的方式集中出现。

三、问题为什么不是“识别率不够高”,而是“系统开始不稳定”?

进入项目阶段后,问题的表现形式通常不是“完全不可用”,而是:

  • 表格偶尔错位
  • 标题层级不稳定
  • 阅读顺序偶发错误

图片

                               复杂表格结构出错

生产环境中最棘手的问题不是“识别率从95%降到85%”,而是无法预测的失败模式。这些问题单看一次,似乎都不严重。

在真实系统中,它们会被下游能力放大

  • 错位的表格 → 抽取字段整体偏移
  • 错乱的结构 → RAG 召回范围失真
  • 顺序错误 → 模型给出“看起来合理但不可信”的答案

这也是为什么很多团队会产生错觉:

“是不是模型还需要再调一调?”

四、为什么这是工程级问题,而不是参数或模型问题?

许多团队最初的应对策略是增加后处理规则。然而,他们很快发现一个事实:

一旦信息在解析阶段丢失,后续几乎无法可靠恢复。

为什么后处理救不了?

  • 跨页表格一旦在解析阶段被拆断,后处理无法稳定还原结构
  • 标题层级丢失,本质是上下文关系消失
  • 这类错误不是“规则没写够”,而是信息已经丢失

为什么模型背不了这个锅?

  • 模型只能基于输入推理
  • 输入结构不稳定,模型只会稳定地产生不稳定结果

在一些审计和数据处理项目中,团队尝试直接用多模态模型做文档抽取,但很快遇到两个现实限制:

  • 吞吐和延迟无法支撑批量处理
  • 泛化能力不足,格式一变就失效

最终结论往往是:

问题不在模型能力,而在缺少一个稳定、可控的解析层。

五、成熟团队是如何看待“文档解析”的?

在已经跑过真实项目的团队里,会出现一个明显的认知转变:

文档解析不是一个功能,而是基础设施。

成熟方案通常具备几个共性:

  • 优先保证结构稳定

    • 表格连续性(尤其是跨页)
    • 标题层级一致
    • 阅读顺序可预期
  • 以工程系统形态存在

    • 支持批量、异步处理
    • 有失败重试和状态追踪
    • 上量后性能可预测
  • 能被长期复用

    • 同时服务 RAG、抽取、审核、入库
    • 而不是一次性脚本或 Demo 工具

这正是面向生产的解析系统——如TextIn xParse——所采用的方法论:不追求单一的“最智能”算法,而是构建可预测、可监控、可维护的工程系统。

图片

例如,面对复杂表格,TextIn xParse更注重表格结构还原、标题/注释与表格的语义关联,而不仅仅是字符识别率。

六、在真实项目中,解析通常处在什么位置?

在生产系统中,解析能力通常处在一个非常明确的位置:

文档输入

解析(结构化/去噪/表格/层级/顺序)

标准化输出

RAG/抽取/审核/数据处理

换句话说:

解析层决定了后面所有 AI 能力的上限和稳定性。

七、为什么生产级文档解析,不能只靠开源工具补出来?

这不是“开源好不好”的问题,而是阶段是否匹配的问题。

开源OCR工具的设计目标通常是解决广泛的通用识别问题,提供算法实现参考,以及满足研究和轻量级应用需求。

而当你的系统开始具备以下特征:

  • 长期运行
  • 批量处理
  • 多业务依赖
  • 对准确率和可追溯性有责任

那你需要的已经不是一个“能跑的工具”,而是一个能长期运行的工程级能力。

当团队选择基于开源工具自建解析系统时,往往低估了:

  1. 维护成本:持续适应新文档格式、修复边缘案例
  2. 集成成本:与下游系统深度整合的复杂性
  3. 机会成本:团队时间从核心业务逻辑转移到基础设施维护
  4. 风险成本:解析错误导致的业务决策风险

这也是为什么在科研、法律、审计等对精度、稳定性、本地化高度敏感的项目中,文档解析会被当作生产级底座来选型,而不是临时方案——正是由于隐性成本往往远超采用专业解决方案的直接成本。

八、一个国家实验室的知识库建设历程

一个国家级科研机构的项目演进过程清晰验证了文档解析应用可能面对的阶段与问题。该实验室最初的目标是构建一个覆盖其核心领域科研成果的内部知识库,用于辅助研究人员快速检索相关文献、实验数据和报告。

第一阶段:快速原型验证

项目初期,团队选择了流行的开源OCR和文档解析工具包。在有限的演示数据集上——几十份清晰扫描的论文和报告——系统表现令人满意。文字识别准确,基本表格结构得以保留,与初步搭建的检索系统对接顺利。这一阶段成功证明了“技术路径可行”,项目如期进入全面开发。

第二阶段:规模化遭遇瓶颈

当系统开始导入真实的库存文档时,问题开始暴露。这些文档包括:

  • 年代较久远的研究文件(部分为低质量复印件)
  • 包含复杂跨页数据表格的年度报告
  • 多语言混合的国际合作论文
  • 带有大量手写批注的实验文件

在数千份文档的批量处理中,团队观察到:

  1. 性能不可预测:处理时间波动极大,从数秒到数分钟不等,无法预估整体完成时间
  2. 错误模式随机:同一份文档两次处理可能得到不同结果,特别是复杂表格的结构
  3. 维护负担沉重:每出现一种新文档格式,就需要编写新的后处理规则

第三阶段:基础设施升级

面对上线期限和准确性要求的双重压力,团队重新评估了解析层的定位。他们需要的不是“另一个更聪明的算法”,而是一个能够提供:

  • 稳定结构输出:确保相同文档类型获得一致解析结果
  • 可预测性能:支持大规模批量处理,有明确的时间预估
  • 专业格式支持:专门优化对科研文档中复杂表格、公式、图表注释的处理能力

基于这些标准,实验室最终选择了 TextIn xParse 作为生产环境的解析引擎。切换后最显著的改善不仅仅是准确率的提升,更是:

  • 处理速度变得可预测,万页级文档库的解析时间从不可预估降至可控范围
  • 跨页表格的连贯性得到保障,数据完整性不再依赖运气
  • 系统维护工作量大幅降低,团队重新聚焦于上层知识库应用逻辑的开发

这个案例的启示在于:当项目从“验证可能性”进入“保障可靠性”阶段时,对基础设施的要求发生了质的变化。该国家实验室的经验表明,解析能力的升级不是一种“优化”,而是在特定阶段必须完成的“切换”——从实验性工具切换到生产级系统**。这种切换带来的价值,往往不在于单项指标的提升,而在于整个系统从“可能出错”到“可信赖”的状态转变。

结论:阶段的正确匹配

开源OCR在demo阶段表现出色,是因为它完美匹配了该阶段的需求:快速验证、低成本、灵活性。但当项目进入生产阶段,需求发生了根本变化:

从验证“是否可行”转变为保障“始终可用”。

这种转变需要的是:

  • 工程级的稳定性而非算法级的新颖性
  • 可预测的性能而非偶尔的卓越表现
  • 完整的生态系统而非孤立的工具

当你的项目开始出现无法通过调整参数解决的解析问题时,真正需要问的不是“如何修补这个工具”,而是:

我们的文档解析需求是否已经跨越了从“实验工具”到“生产系统”的临界点?

对于已经达到这一临界点的团队,专业解析解决方案提供的不仅仅是更好的识别算法,更是一个完整的工程体系——这是从演示原型到生产系统必须跨越的鸿沟。

选择何时跨越这一鸿沟,取决于项目的规模、复杂度和风险容忍度。但一旦决定跨越,就需要相应的工程思维和工具支持,因为在这个阶段,可靠性不再是可选项,而是必需品。

异常处置包含异常发现、问题定界和根因定位等环节,高效的异常处置流程对于保障平台的稳定性起到至关重要的作用,然而平台本身的复杂度以及海量的多元异构数据给异常处置带来了巨大的挑战。如今,大模型等 AI 技术的演进则为应对这些挑战提供了新的思路。在 2025 年 InfoQ 举办的 QCon 全球软件开发大会( 北京站)上,来自阿里云的算法专家张颖莹发表了题为《AI 驱动的智能异常处置:从异常发现到根因定位》的演讲。她从阿里云计算平台的运维场景出发,分享了从异常发现到问题定界和根因定位各环节的算法选型和设计思路,包括通用的时间序列异常检测、高效的日志聚类和精准的多 Agent 根因定位框架。

预告:将于 2026 年 4 月 16 - 18 召开的 QCon 北京站策划了「Agent Ops:运维新生产力」专题,将深入讨论 Agent 如何与现有技术栈深度集成,并演进为具备长期记忆与自我进化能力的运维实践。如果你也有相关方向案例想要分享,欢迎提交至 https://jinshuju.com/f/Cu32l5

以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。

阿里云大数据运维背景

我们阿里云计算平台整合了整个阿里的大数据和 AI 的能力,并以产品化、平台化的方式支撑了我们集团内部与云上各行各业客户的众多非常核心的业务场景。这里列举其中几个比较典型的平台。

  • 比如 MaxCompute 大数据计算服务主要负责大规模数据的离线计算。大家日常在网购后经常会在手机上去追踪自己的包裹,这些菜鸟的物流数据产出就依赖 MaxCompute。

  • 还有实时性要求相对较高的场景,比如自动驾驶场景,车机系统会对司机的危险驾驶行为发出实时警告。像这一类比较追求时效性的场景,往往就依赖 Flink 这样的实时计算引擎。下一个是 Hologres 实时数仓,大家在手机淘宝上检索商品关键词时,它会在底层进行实时的交互式分析,为大家呈现实时的检索推荐结果。

  • 另外随着大模型越来越火爆,大家对机器学习模型相关的训练、微调、在线服务的需求都有了爆发式的增长。这一类的模型训练、微调、在线服务都可以一站式在我们的机器学习平台 PAI 上完成。

可以看出我们的这几个平台上层支撑的业务都非常重要,所以做好这些平台的运维也非常关键。但传统的运维模式很容易让运维人员变成背锅侠的角色。所以我们计算平台也专门设置了一支运维中台研发团队来负责所有大数据和 AI 产品的统一运维管控。我们也一直利用“AI+ 数据 + 工程”的手段来提升整体运维效率。

稳定性作为运维的基石,其重要性是毋庸置疑的。但对于系统来说,异常的发生很难避免,怎样在异常发生时能进行快速高效的处置,对于整个平台的稳定性是非常重要的。另一方面,随着我们的用户对云服务厂商服务水平的要求越来越高,精细化运维已成为行业趋势。另外像我们前面提到的这些大数据平台,它们的底层都是超大规模的计算集群,这些集群无时不刻都在产生海量的数据,这些海量数据对我们的异常处置也带来了更多的战。

我把整个异常处置层面我们面临的挑战总结成三个层面。首先是面对这样复杂的系统,我们怎样从这个系统运行的蛛丝马迹里全面发现各种异常,确保监控的覆盖率。第二个层面是面对这么多异常告警,我怎样从这些告警风暴里真正剥离出最关键的信息,从而减少误报对运维人员的干扰。第三个层面是当异常发生时,我怎样快速定位到问题的根本原因,并采取针对性的措施,对症下药来让异常快速恢复,减少对用户带来的损失。

异常发现和告警降噪

接下来我们会为大家分享我们是怎样逐一来攻克前面提到的三个挑战。

首先是异常发现的层面,我们团队构建了非常丰富的异常检测相关的算法,力求实现异常的全面覆盖及精准发现。

我们在这里梳理了 4 个典型场景,我们针对不同形态的数据和不同的场景都会选择它最适配的算法。

首先是单指标异常检测场景,比较典型的应用就是我们整个系统的可用性监控。比如这个平台整体的流量、性能、成功率,这些指标和用户自身的业务周期是非常紧密相关的,因此它经常会呈现出比较复杂的多重周期性。所以在这里我们自研了一套鲁棒的周期分解算法,来对这些曲线中的多重周期性进行精准的识别和分解,从而更好地做到异常的发现。

第二类是多指标异常检测场景。当我需要判断一台机器是不是存在异常时,可能单独去看其中的某一条指标是没有太大参考价值的,我需要综合去看这个机器所有维度的指标。在多指标异常检测这边,我们直接选用了开源的多指标异常检测模型。虽然它相比单指标异常检测可能会牺牲一定程度的可解释性及性能,但它可以更好地把握多指标之间的内部关联性,从而提升检测的精准度。

第三类是基于分布的异常检测。在大数据运维的场景里,我们经常会面临着这样的问题,就是当我的集群性能变慢时,我不单是要检测单个指标、单个作业是不是变慢了,而是希望去看整个集群或整个平台的作业运行的分布是不是有异常的变化。针对分布的异常检测,我们也自研了一套异常检测算法。

除了指标之外,日志也是非常重要的一种可观测的数据。日志数据最大的挑战是它的体量非常庞大,所以在这里我们先选用了业界性能比较高的日志模板提取算法,然后我们会基于提取出来的日志模式去判断它是不是新增的异常,或者它的模式是不是有暴增的变化。

接下来我们重点给大家展开介绍一下前面提到的两类自研算法。

首先是针对单指标的场景,我梳理了我们运维场景里最关心的几类典型异常,包括均值变化、方差变化,也就是抖动频率的变化,还有尖峰深谷的异常、断崖式跌落的异常,还有趋势型的异常。大家可以看到梳理出来的异常可能看起来还比较明确,但实际上这些异常融合到真实的业务数据里时,非常容易受到数据本身的其他周期性的干扰,使得检测变得非常困难。

所以在这里我们构建了 周期分解算法,它的核心思想是采用了分而治之的策略。首先从一条时间序列里把不同频率的周期逐一剥离出来,然后再针对剥离出来的每一重周期去精准计算它具体的周期长度,从而更好地把握整个数据的周期性特点。做完周期分解后,我们会进一步利用不同类型的统计检验方法,来分别对应检测前面提到的这几种典型异常,从而实现用一套算法框架就能够覆盖前面提到的多种类型的异常,使得这一套单指标的异常检测算法能够在运维领域具备更强的普适性。

第二类是基于分布的异常检测。大数据运维经常会面临的痛点,是当我需要做整个集群性能的异常检测时会面临两个挑战。首先是整个集群上运行的作业数量非常多,如果我对每个作业都去检测它有没有运行变慢,耗费的成本会非常高。而且即使我做到了对每个作业的检测,但实际上我并不会关心单一的某作业的波动,因为很多情况下可能用户购买的资源不足,他自己的资源组里面的作业之间也会进行资源的争抢,所以也会出现单作业变慢的情况。但我们真正需要关心的是整个集群作业性能异常、变慢的这种趋势。

所以我们把整个集群作业运行时长的分布图构建了出来,然后借鉴了优化领域非常经典的运输问题,结合基于重构的深度学习模型来进行异常检测。我们可以把整个集群的作业运行时长的分布图想象成土堆,然后当这个土堆向右边运输时,我们增加一定的惩罚项,从而更好地检测出整个作业运行时长分布图向右偏移,也就是整个集群性能变慢的这种场景。当然我们还在深度学习模型里选用特殊的门控机制,来更好地应对训练样本当中的噪音问题。

到这里我们已经通过多种类型的异常检测算法实现了异常的全面覆盖。随之而来的问题就是面对这么多的异常告警,运维人员怎么判断到底哪些异常才是需要第一时间响应的。所以我们需要对这些告警进行进一步的精细化分级。我们主要从两个方面来进行告警的精细化处理,分别是影响面拉取和问题定界。

影响面拉取指的是当我们的主指标异常触发了异常工单后,我可以根据整个拓扑关系拉取到主指标所关联的子指标。然后我通过时间序列的下钻算法,可以量化出来每个子指标对主指标的贡献程度,以及它自己相对于历史的异常度。综合这两个维度,我可以计算出来这一次的异常所波及到的影响面到底有多广。一般来说波及面越广的异常,运维人员自然要去更加高优地响应。

第二类是问题定界。在大数据的场景里有很多异常是因为用户自己的操作失误引起的,比如像一条 SQL 语句,如果它的语法就存在错误,自然会运行失败,但运行失败就会产生报错日志,甚至会影响到用户实例本身的成功率。但像这一类语法错误导致的异常,我们的运维人员并不需要第一时间介入处理。运维人员真正应该关心的是由平台问题导致的失败或者任务的异常,所以我们需要对用户作业的报错日志进行更加精细化的分析。

这里我们首先用前面提到的日志聚类算法对异常时段的所有日志先进行聚类,聚类完成后我们会提取出其中典型的日志异常模式,然后和我们日志知识库当中的标签去匹配,这个标签就可以标识出日志到底是用户问题还是平台问题。日志知识库的标签从哪来?一方面可以由我们的运维专家去人工标注,另一方面我们现在也在用大模型做这方面的提效。我们会利用大模型事先生成预标签结果,然后让专家审核。

基于影响面和问题定界的结果,我们就可以对告警分成不同的等级,包括需要立即响应的故障性异常,还有红灯、黄灯,还有可以稍微延迟处理的风险性异常。这种做法首先可以让我们不遗漏任何一种风险,同时又可以更好地分配运维专家的精力和关注度,确保他们能够更高效地处置那些真正紧急的异常。

多 Agent 根因定位框架

到这里我们已经解决了异常发现环节的问题。但实际上在异常处置流程里,最耗时也往往最困难的点在根因定位这个环节。因为这个环节涉及到的数据还有工具都非常繁杂,而且即使存在一套非常标准的运维排障流程,但真正具体到每一次故障时,依然需要结合当时的场景和数据的具体问题做具体分析。所以根因定位往往也只有那些经验非常丰富的运维专家才能够做到真正高效的处置。也正是因为根因定位存在着这样的难点,它近年来也一直是学术界、工业界都非常关注的热门话题。我们团队也一直在根因定位这个方向上不断升级策略和算法,现在也引入了多 Agent 的框架来解决这样的问题。

在具体介绍我们的策略之前,我们可以先简单回顾一下 Agent 的核心要素。这几个要素对构建高效的智能体来说非常关键,它也是我们后续设计我们整个多 Agent 根因定位的核心思路。首先是角色的设定部分,我们通常会在大模型的 prompt 里交代它的角色定位,包括它的业务背景,使得它能够在领域上具备更好的专业度,同时也能够更加明确它自己的任务产出到底是什么样的形式。第二类是长短期记忆,通常我们会通过 RAG 的方式引入外部私域知识,进一步提升大模型在私域的专业性,更好地让它了解上下文。第三类是好的工具模块,让大模型具备更强大的主观能动性,拓展它的能力边界。最后是自主编排,对大模型来说非常关键,因为它直接决定了大模型能不能很好地做到任务的拆解,以及具体执行步骤的编排,它很大程度上决定了大模型能不能够解决根因定位的问题。

接下来我们就分别介绍我们是怎样基于这几个核心要素来构建多 Agent 根因定位框架。首先是角色设定的部分。

我们可以回忆一下,当我们日常出现线上问题时,运维团队是怎样工作的?通常他们会成立故障应急小组,在这个小组中会有各个模块的负责人,他们会分别排查各自的模块目前的信息,并且判断自己到底是根因方还是受影响方。然后他们也会和自己的上下游模块做沟通,最终他们的结论会汇总到故障应急负责人这边,他会去对全局的信息做整体汇总,并给出最终结论。

我们希望基于大模型构建出来的诊断系统也能够具备故障应急团队这样的效果。在这个团队里面,人的分工是非常关键的,每个角色都应该具备自己的专业度和特长,所以单一的 Agent 通常不能满足这样复杂任务的需求,所以我们引入了多 Agent 的框架。我们是按照系统的模块来设定每个 Agent 的角色,比如会有专门的存储 Agent、调度 Agent、网络 Agent 等。在 prompt 里,我们会内置模块相关的背景信息,使得它们可以对照现实世界里每个模块的 owner 这样的角色。除了模块 Agent 外,在上层我们还会有系统 Agent 的角色,就相当于是故障应急负责人。它可以收集每个模块 Agent 的结论,并且给出最终的判断。

在完成了 Agent 的角色设定后,接下来很重要的就是要丰富每个 Agent 的装备库。我们构建了 4 大类工具,首先是算法服务类的工具,包括前面提到的时间序列异常检测、日志异常检测能力,还有因果推断能力。这些服务都会构建成在线服务的形式,可以非常方便地对接其他系统,或者作为 API 来让 Agent 调用。

第二类是 RAG 工具,它在私域的智能问答领域里是非常核心的技术,在根因定位环节里同样发挥着非常关键的作用。比如当我们需要对照历史的相似故障来参考它的排障经验时,或者当我遇到一些指标和日志,但可能不太清楚它的具体含义是什么时,都需要参考对应的文档,把对应的知识检索回来,从而给大模型提供更丰富的背景知识。

第三类是运维分析类工具。我们的运维人员构建了很多集成了他们专家经验的分析诊断流,比如针对单个作业的诊断,还有针对整个单机的诊断,还有网络层的诊断等。这一类诊断工具理论上都可以由大模型来自主编排完成,但实际上因为这些工具之前就已经沉淀好了,而且我们利用编排好的诊断流可以直接得到非常明确的结果,所以在很大程度上可以减少大模型的 token 消耗,来提升整体根因定位的效率。

第四类是外部插件。现在很多大模型应用平台都搭载了非常丰富的生态系统,有着插件市场这样的概念,在里面很多第三方的开发者都会贡献他们自己研发的分析工具,比较典型的包括在线检索类工具、代码编写类工具,还有 chatBI 类的工具。现在这些工具都可以直接拿来为我们自己所用。

通过这些工具集的构建,我们就让 Agent 同时具备了专业的运维分析能力、专业的算法分析能力,甚至还具备一定的通用基础开发能力,这样它就能有更好的武器应对更加复杂的根因定位场景。

第三部分是关于编排可靠性的提升。

关于编排,我们会面临这样的挑战,就是一方面我们希望能够尽可能释放大模型自主编排的灵活性,这样它在以前没有遇到过的故障场景也能发挥特定的效应,而不是只能针对历史重复出现的故障才知道该怎么做。但另一方面大模型编排结果是否可靠,可能直接决定了这个故障是不是能够及时恢复,在这个方面我们的容错性是非常低的。所以这里的最大难点就是怎样在释放大模型编排灵活性的同时,又能进一步提升编排结果的可靠性。

在这里我们采取的策略是固定工作流编排和自主编排相结合的混合策略。一方面我们会把运行性能相对较高,并且对根因诊断非常关键的工具,直接编排到前置的工作流里。这些工具直接执行完后,我会把它的结果输入到大模型里,再让大模型自主决策是不是还需要调用额外的工具来做进一步排查,才能够得到最终的根因推断结论。

然后在大模型自主编排这一部分,我们也采取了很多策略来提升它结果的可靠性。任务分解部分我们主要采用的是 react 框架,也是现在比较主流的框架。大家在实际应用里也可以直接把它作为 baseline 来作为后续提升的参照。另一部分是记忆增强,我们通过检索外部的 SOP 来让大模型进一步校准它生成的 SOP 的可信度。第三部分是加入了反思机制,我们会让大模型在整个决策过程动态反思中间过程可能会有哪些改动来保证灵活性。

除了任务分解、记忆增强和反思机制之外,还有一些策略可以进一步提升它的编排可靠性,包括多计划选择,还有引入外部规划器来辅助它生成这样的策略。我们也计划在后面再对这些策略做更详细的尝试。

最后一个问题涉及多 Agent 框架的协同。我们前面聊的都是怎样让 Agent 自己变得更好,接下来的问题是我有这么多个 Agent,怎么能够让它们更好地协同。

现在有非常多的 multi Agent 编排框架,他们在系统里都会内置编排好的多 Agent 协同工作流。但这些默认的工作流,在我们的场景里或多或少都会存在一定的弊端。比如像顺序执行的工作流,上游节点在做决策时是不知道下游节点信息的,所以会存在着一定的信息不对称,会导致它得到片面的结论,而它的结论可能又会进一步影响到下游节点的决策,会形成一定的误差累积效应。第二类是层次结构,虽然看起来有顶层节点来对大家的信息做汇总,但实际上下游节点之间依然是不存在任何信息交换的,同样会导致它们自己得到比较片面的结论。第三种圆桌讨论的模式,看起来大家的信息可以在桌子上进行非常充分的交换,但它最大的弊端在于缺少明确的领导者,所以大家的讨论可能会非常发散,聊着聊着可能就偏离了主题,很难在限定时间内得到非常明确的结论。

考虑到这些固定编排模式的弊端,我们自研了一套基于神经网络反馈机制的工作流。它的核心思想也非常简单,我首先会根据模块之间的拓扑结构设定单向传导的工作流,我们称之为前向反馈。在前向反馈的基础上,我额外增加了后向反馈的机制,实际上就是让前置 Agent 有机会修改自己之前可能得出的错误结论,然后最终大家的结论依然会汇总到系统 Agent 这边来。这样的好处是一方面我可以在一定程度上弥补信息不对称的问题,同时也能把整体的推理次数非常严格地限制在预设的范围内,减少盲目发散的讨论。

通用异常处置平台

前面介绍的更多都是算法层面的设计,而好的算法最终还是需要真正集成到我们的平台上,才能真正融合到运维人员的工作流里,发挥出真正的效用。所以工程平台的建设也非常关键。在这里我给大家分享一下我们怎样来构建通用的异常处置平台。现在我们各个产品的运维异常处置流程都可以在这个异常处置平台上来进行,很大程度上提升了我们计算平台整体异常处置的效率。

整体架构最底层是数据层,我们为运维场景里这些经典的数据模式都安排了最适合它们的存储方式,包括指标、日志、拓扑、文档、事件等,使得它可以在后续的分析环节里做到非常高效的数据抽取、根因分析。

数据层之上是我们非常核心的算法服务层及大模型服务层。算法服务层里搭载的是前面提到的时序、日志、根因定位、因果分析,还有检索这类非常基础通用的算法,这些算法会部署在 PAI-EAS 上变成在线服务,可以供其他系统直接调用,也可以作为工具集成到 Agent 里。

大模型相关的这一部分,除了前面提到的 prompt 工程,还有工具的调用,还有工作流编排。对于完整的大模型服务而言,如果你不是 demo,如果你想要真正上生产的话,还需要考虑很多因素,比如像可观测能力,还有资源的管理隔离能力等。所以想要搭建好大模型应用服务,还是需要搭配非常好的大模型应用构建的平台。幸运的是现在也有非常多的这样的平台,包括商业化的、开源的,都具备了非常强大的能力。但对我们来说,我们还是需要根据我们自己的业务场景去选择最好的、最适合自己的平台来进行构建,才能提升效率。

接下来也想和大家进一步分享一下我们在选择这样的大模型应用开发平台时会从哪几个角度来考虑。我们主要会从三个层面,第一个是应用构建本身的便捷度和产品应用性,第二个是 LLMOps 能力的完备度,最后是平台本身的开放度。

在应用构建方面,我们会重点考虑我在这个平台上是不是可以非常便捷地完成非常复杂的业务工作流的编排,最好就是拖拉拽的方式就可以完成复杂的编排任务。其次是这个平台上面是不是同时具备了微调能力,这样我就不需要在各个平台上频繁切换,能够在平台上一站式完成整个模型的微调和最终应用的部署搭建。第三个是像 RAG 的经典组件,我在这个平台上是不是能够直接复用,减少额外的开发工作量。最后是我在这个平台上面搭建的服务,是不是能够非常便捷地和最终的交互出口承接,不需要额外再构建中间的一层服务来进行引流。

第二个大的层面是 LLMOps 的能力,它直接决定了整个大模型应用服务的稳定性,以及后续性能优化的空间。所以我会重点关注平台是不是具备一定的模型加速能力,资源管理的能力也非常重要,就是在突发流量打进来的时候,你是不是能非常方便地帮我做资源扩容。还有我不同的大数据产品之间肯定是要做隔离的,你是不是具备完备的资源管理隔离的体系。可观测性也是非常关键的,当我大模型推理失败的时候,是不是能够非常便捷清晰地看到到底是哪个环节、哪个工具调用出现了问题,方便我进行问题的快速恢复和改进。最后是模型测评的能力,因为现在基础模型发展非常迅速,所以我希望能够在平台上非常便捷地做模型效果的测评,来方便我选择最适合这个场景的基模。

第三个层面是开放性,开放性直接决定了我在你这个平台上是不是能够更好地利用别人开发的能力,以及我是不是能够和开源的生态做更好的兼容。这里首先要考虑你的插件市场是不是足够丰富。第二个方面,像现在比较火的 MCP 协议,你是不是能够天然支持?还有同外部系统以及开源框架的对接,我现在迁移到你的平台,是不是能够更好地做到无缝的迁移,我后续是不是还能够持续用到开源生态的创新性成果,这些都非常关键。

基于这些考虑因素,我们现在选用的是阿里云的百炼来搭载大模型应用,当然大家也可以结合自己对这几个因素的优先级的排序,选择更适合自己的平台。我们选择百炼,一方面是它在我前面提到的几个维度上相对来说是比较完整的,同时它在应用类型上也非常丰富,既包括我前面提到的固定工作流式的编排,也提供了以 RAG 为核心的智能体应用,同时它还提供了智能体编排应用,可以把前面提到的多种不同类型的应用全部整合进来,做到混合编排。

另外它整个任务编排的产品界面是相对来说比较友好的,我在上面可以非常便捷地拖拉拽来完成复杂工作流的编排。最后在整个百炼的项目空间里,我可以观测到整个服务的调用情况,每一次调用都可以点开详情看每个工具的输入输出到底是什么,是不是符合预期,方便我进行问题的排查。

前面我们已经完成了大模型应用搭建的部分,接下来我们具体聊一下整个异常处置平台到底包含了哪些核心的模块。

首先这个平台的入口也就是告警源,除了前面提到的算法检测结果外,在我们实际的业务里它还会包含 SRE 自己在监控系统里设置的监控告警,当然还有用户来提的工单或者人工补录的情况。每一种告警来源,我们都会给它生成异常工单,这个工单里会包含 4 个非常核心的模块,首先是异常现场,然后是定界定级的结果,还有根因定位的结果以及快速恢复。

异常现场主要呈现出这一次开工单的原因到底是什么,触发的指标和日志到底是什么样的,来方便运维人员在接手工单时快速了解问题的背景。然后是定界定级的结果,会具体呈现出这一次异常的影响面,以及算法得到的分级过程。根因定位会展现出多 Agent 框架定位的结果,我们现在会得到根因模块的结论,同时大模型也会提供出得到这个结论的推理依据。同时对于每个模块 Agent,我都可以点开详情查看它的工具调用情况。最后快速恢复的部分,我们现在还在相对比较初步的阶段。目前主要是做的是检索历史的相似工单,这样运维人员可以在新的工单里直接点击跳转到历史工单里查看当时的处理策略,从而对这一次的异常处置提供一定的参考。

我们可以整体来看一下整个异常处置平台在我们线上应用的真实效果。首先当异常发生时,运维人员会在钉钉上收到卡片的通知,根据告警等级的不同,卡片也会呈现出不同的颜色,直观看出异常的严重程度。如果异常没有被及时处置,它的影响面可能会不断扩大,它可能会从黄灯变成红灯,这个卡片的颜色也会随之动态变化。

另外当工单被运维人员接手进行处置时,我们可以在工单上实时看到它的处置进度,方便整个群里的人都了解整个异常的处置情况。

运维人员收到这个卡片后,他可以点击对应的链接跳转到异常工单的页面上,可以看到异常的现场,包括具体的曲线以及曲线到底是从哪个时刻开始有这个异常点。

然后在异常影响面的分析部分,我们可以看到这次的异常到底影响了哪些客户,我们会在这里列出具体的客户信息。同时我们也能看到这个客户这次受影响的实例在我们这次异常里的占比。在最下方,我们会呈现多 Agent 的根因定位结论。首先会得到明确的定界和定位结果,以及这个结果的核心依据。下面我们可以看到每个模块 Agent 的独立结果,点击详情就可以进一步看这个模块到底调用了哪些工具,以及这些指标日志的检测的情。实际上我们经常会出现多个模块 Agent 都觉得自己出问题了,都可能觉得自己是根因这样的情况,但我们最终的系统 Agent 还是会根据各个模块之间的潜在拓扑关系得到更加明确的结论,最终它给出的结论只会是最终根因的那个模块。

总结和展望

这次分享,我们首先从大数据运维的业务背景出发,来给大家介绍了我们在异常处置环节到底都面临着哪些挑战,包括我们怎样全面检测出这些异常,以及怎么面对告警风暴,真正剥离出其中关键的信息,帮助运维人员更好地分配注意力,以及最后我们在异常发生时怎么快速定位到问题的根因。

然后我们具体介绍了我们怎样利用 AI 技术来逐一攻破这些挑战,包括建设多种类型的异常检测算法,以及通过影响面的分析还有问题的定界来帮助我做更加精细化的告警分级。最后我们还引入了多 Agent 的根因定位框架,来模拟现实当中的故障处置小组实现根因模块的定位,并且给出它的推理依据,让我们的大模型推理不再是黑盒。前面提到这些算法技术都是通过 PAI-EAS 部署成在线服务的方式来供其他的系统和大模型应用层来进行进一步的调用。

而我们大模型服务层本身则是依靠百炼这个平台来进行构建和部署的,最终这些算法服务层和大模型服务层共同支撑了最上层的异常处置平台,真正把 AI 能力集成到平台和产品里,整合到运维人员日常的工作流里,发挥出真正的提效作用。

最后我们来对下一步的规划做展望。首先我们会进行异常处置能力整体的补全,会从现在事中的异常发现,一步向前延展,做风险预防。我们整体的思路是希望纳入更多海量数据来做故障的提前预警,这方面带来的技术挑战会更大,可能会涉及告警本身时空相关性的挖掘等技术。

在根因定位之后,我们还会打造真正的预案推荐,因为只有真正推荐出了可能的预案,才有可能走到最终的自愈环节,做到处置的自动化闭环。预案推荐在某种程度上也依赖根因定位的精细度。目前我们的根因定位也只能做到一级的模块,后面我们会进一步做到二级模块,来让整个根因定位更加明确具体,让它最终的关联动作可以更加明确。

除了异常处置能力的补全外,我们还会进行 Agent 的能力增强,包括自主编排、可靠性的提升,我们还有很多的策略需要尝试,来进一步保证它的结果是靠谱,并且性能是足够优的。还有工具能力的拓展,我们现在主要是把现有的运维平台上面的工具还有作业去兼容 MCP 这样的协议,使得 Agent 具备更强的系统兼容性。

最后是交互体验的优化以及人工反馈的增强。要让大模型能够得到令人满意的效果,人的实时反馈是非常重要的,包括现在很多像 Manus 这样的组件,都会在生成 plan 之后允许用户有机会做调整,这对最终结果的准确性非常关键。所以我们整体的交互模式的变化,以及后续怎样利用人工的反馈来持续优化后面的迭代,让大模型真正做到越用越聪明,是非常关键的问题。

整体来说,我觉得大模型技术和 AI 技术的发展可以用日新月异来形容,它也给我们智能运维领域带来了很多技术上面的突破,我也非常期待我们能够有更多的成果来做进一步的分享,感谢大家。

阿里云计算平台正急招智能运维算法专家,岗位链接,也可直接投递简历至:congrong.zyy@alibaba-inc.com,欢迎加入我们。

嘉宾介绍

张颖莹,阿里云算法专家,阿里云计算平台智能运维算法团队负责人,在智能运维领域深耕 8 年。用产品和服务支撑计算平台 MaxCompute、Flink、Dataworks、PAI 等多个大数据 &AI 产品的智能化运维。多项研究成果被 ICLR,KDD,VLDB, SIGMOD, ICDE,WWW, CIKM,ICASSP 等国际顶会接收,并带领团队获得了 ICASSP 国际智能运维算法大赛冠军。曾受邀在 QCon,ArchSummit,DataFunCon,FlinkForward 等大会发表演讲,同时参与了阿里巴巴开源大数据运维平台 SREWorks 开发和信通院《智能运维能力成熟度模型》行业标准编写。

活动推荐

2026,AI 正在以更工程化的方式深度融入软件生产,Agentic AI 的探索也将从局部试点迈向体系化工程建设!

QCon 北京 2026 已正式启动,本届大会以“Agentic AI 时代的软件工程重塑”为核心主线,推动技术探索从「AI For What」真正落地到可持续的「Value From AI」。从前沿技术雷达、架构设计与数据底座、效能与成本、产品与交互、可信落地、研发组织进化六大维度,系统性展开深度探索。QCon 北京 2026,邀你一起,站在拐点之上。

在许多企业中,ITSM 系统、IT 工单管理系统 以及 ITIL 流程 的落地,往往被视为一项阶段性成功:系统上线了,流程跑起来了,指标也能在仪表板上“交差”。

然而,另一种声音却在业务侧反复出现——“流程是规范了,但事情并没有更好办”“找 IT 还是慢”“体验反而更复杂了”。这种割裂感,几乎贯穿了所有规模的组织。

问题并不在于 ITSM 是否有价值,而在于:ITSM 的“成功标准”,往往只在 IT 视角成立。

当“项目成功”不等于“服务成功”

在 IT 团队内部,ITSM 项目通常围绕一组清晰、可量化的目标推进:

-工单是否全部纳入系统

-事件、问题、变更流程是否符合 ITIL 要求

-SLA 是否达标

-报表是否可视化

从项目管理角度看,这些目标完全合理。但问题在于,它们更多衡量的是系统运行是否“合规”,而不是服务交付是否“有效”。

这正是 ITSM 项目最常见的第一个断层:指标完成 ≠ 服务被认可。

ITSM 成功的最大误区:把“管理”当成“服务”

从根本上说,ITSM 失败的原因并不是工具能力不足,而是视角错位:

IT 关注的是可控性,而业务关注的是可用性。

当 ITSM 只用于“规范 IT 行为”,而未用于“优化业务体验”,即便系统再先进,业务满意度也难以提升。

从“IT 视角成功”到“业务视角成功”的转化模型

要真正解决“ITSM 看起来成功,但业务依然不满意”的问题,关键并不在于增加流程或工具功能,而在于重新定义什么才是成功。

成熟组织通常会采用一种“双层指标模型”,例如 ManageEngine卓豪 ServiceDesk Plus将 ITSM 的技术指标映射到业务结果上。

Q1:为什么 ITSM 上线后业务满意度反而下降?

通常是流程复杂度上升、体验未同步优化,导致业务感知成本提高。

Q2:SLA 达标是否还能作为核心指标?

可以,但必须与业务影响指标结合,否则容易产生误导。

Q3:ITSM 如何支撑跨部门服务?

关键在于统一入口、共享上下文以及可编排的工作流能力。

Q4:中小企业是否需要这么复杂的 ITSM?

不是复杂,而是适配。规模越小,越需要避免过度设计。

以前 v 友说 mac 的内存 16G 当 32G 用真的没骗我

windows 笔记本我这样用开 20 几个网页+一切工具,16G 就不行了;后来加了 32G+16G 才够我的使用

mac 开这么多程序,还能再打开程序,牛逼;不过网页还是不敢开多了,需要习惯性的存标签

image

在大多数企业的数字化进程中,ITSM 系统 与 IT 工单管理系统 的引入,往往始于一个非常现实的需求: 统一入口、减少混乱、提升响应效率。 然而,当组织规模扩大、业务复杂度上升、系统数量激增之后, 单一工具所能承载的价值很快触及上限。

此时,IT 服务管理面临的已不再是“有没有系统”的问题, 而是系统是否具备平台化能力: 能否整合多类服务、统一服务体验、沉淀治理规则, 并最终演进为支撑全组织运行的服务中台。

ManageEngine卓豪 将围绕“平台化 IT 服务管理”这一主题, 系统拆解企业从工具堆叠走向服务中台的演进逻辑, 并结合实践经验,解析这一转型过程中常见的误区、关键能力与落地路径。

为什么“多工具并存”终将走向失控

在 IT 服务管理早期阶段,工具堆叠几乎是不可避免的结果。 服务台、资产管理、监控、权限管理、协作工具各自独立建设, 在短期内确实能够解决局部问题。

平台化 IT 服务管理的本质是什么

平台化并不意味着“一个系统替代所有系统”, 而是通过统一的服务抽象层, 将分散的能力整合为一致、可治理、可扩展的服务体系。

在平台化 ITSM 模式下,服务不再以“系统”为中心, 而是以“服务对象”和“服务结果”为核心进行组织。 用户无需关心背后涉及多少工具, 只需通过统一入口发起请求并获得结果。

平台化 IT 服务管理的典型应用场景

当 ITSM 演进为服务中台,其价值将体现在多个高频场景中。

例如,在员工入职场景下,服务中台能够自动编排账号创建、 设备配置、权限分配与安全校验, 避免传统人工交接带来的延误与风险。

在变更管理场景中,平台化 ITSM 可以基于历史数据与风险规则, 动态调整审批路径与控制策略, 而非依赖固定模板。

这些能力的共同特点在于:将复杂的跨系统操作封装为标准化、可复用的服务能力。

平台化 IT 服务管理背后的组织与治理模型

当 IT 服务管理完成从“工具集合”向“平台能力”的转型后, 真正的挑战往往不再来自技术本身,而是组织与治理方式是否能够同步进化。 如果仍然沿用传统的职能割裂式管理模式, 即便拥有再先进的平台,也难以释放其长期价值。

平台化 IT 服务管理强调的是服务视角下的责任重构。 这意味着 IT 不再只是被动响应请求的执行者, 而是以“服务能力提供者”的身份参与业务运行。

ServiceDesk Plus 如何支撑 IT 服务中台化建设

在众多 ITSM 工具中, ServiceDesk Plus 之所以被广泛应用于中大型组织, 正是因为其设计理念并未局限于“工单工具”, 而是围绕平台化与扩展性进行构建。

通过统一的服务目录、灵活的流程引擎、 低代码业务规则以及丰富的集成能力, ServiceDesk Plus 能够将分散的 IT 能力 逐步整合为一致的服务体验。

更重要的是,该平台支持在不破坏既有流程的前提下, 逐步引入自动化、治理规则与数据洞察, 非常适合作为服务中台建设的核心枢纽。

平台化 IT 服务管理是否适合中小企业?

平台化并非规模专属。 中小企业同样可以从统一入口、流程整合和自动化中受益, 关键在于循序渐进,而非一次性重构。

平台化 ITSM 是否会增加系统复杂度?

短期内可能需要一定规划成本, 但长期来看,平台化恰恰是为了解决工具堆叠带来的复杂性问题。

服务中台是否意味着完全自动化?

并非如此。 服务中台的目标是“合理自动化”, 在关键节点保留人工决策能力。

如何判断组织是否已具备平台化条件?

当组织开始关注服务一致性、 跨系统协同与治理能力时, 通常已经站在平台化转型的起点。

在大多数企业的数字化进程中,ITSM 系统 与 IT 工单管理系统 的引入,往往始于一个非常现实的需求: 统一入口、减少混乱、提升响应效率。 然而,当组织规模扩大、业务复杂度上升、系统数量激增之后, 单一工具所能承载的价值很快触及上限。

此时,IT 服务管理面临的已不再是“有没有系统”的问题, 而是系统是否具备平台化能力: 能否整合多类服务、统一服务体验、沉淀治理规则, 并最终演进为支撑全组织运行的服务中台。

ManageEngine卓豪 将围绕“平台化 IT 服务管理”这一主题, 系统拆解企业从工具堆叠走向服务中台的演进逻辑, 并结合实践经验,解析这一转型过程中常见的误区、关键能力与落地路径。

为什么“多工具并存”终将走向失控

在 IT 服务管理早期阶段,工具堆叠几乎是不可避免的结果。 服务台、资产管理、监控、权限管理、协作工具各自独立建设, 在短期内确实能够解决局部问题。

平台化 IT 服务管理的本质是什么

平台化并不意味着“一个系统替代所有系统”, 而是通过统一的服务抽象层, 将分散的能力整合为一致、可治理、可扩展的服务体系。

在平台化 ITSM 模式下,服务不再以“系统”为中心, 而是以“服务对象”和“服务结果”为核心进行组织。 用户无需关心背后涉及多少工具, 只需通过统一入口发起请求并获得结果。

平台化 IT 服务管理的典型应用场景

当 ITSM 演进为服务中台,其价值将体现在多个高频场景中。

例如,在员工入职场景下,服务中台能够自动编排账号创建、 设备配置、权限分配与安全校验, 避免传统人工交接带来的延误与风险。

在变更管理场景中,平台化 ITSM 可以基于历史数据与风险规则, 动态调整审批路径与控制策略, 而非依赖固定模板。

这些能力的共同特点在于:将复杂的跨系统操作封装为标准化、可复用的服务能力。

平台化 IT 服务管理背后的组织与治理模型

当 IT 服务管理完成从“工具集合”向“平台能力”的转型后, 真正的挑战往往不再来自技术本身,而是组织与治理方式是否能够同步进化。 如果仍然沿用传统的职能割裂式管理模式, 即便拥有再先进的平台,也难以释放其长期价值。

平台化 IT 服务管理强调的是服务视角下的责任重构。 这意味着 IT 不再只是被动响应请求的执行者, 而是以“服务能力提供者”的身份参与业务运行。

ServiceDesk Plus 如何支撑 IT 服务中台化建设

在众多 ITSM 工具中, ServiceDesk Plus 之所以被广泛应用于中大型组织, 正是因为其设计理念并未局限于“工单工具”, 而是围绕平台化与扩展性进行构建。

通过统一的服务目录、灵活的流程引擎、 低代码业务规则以及丰富的集成能力, ServiceDesk Plus 能够将分散的 IT 能力 逐步整合为一致的服务体验。

更重要的是,该平台支持在不破坏既有流程的前提下, 逐步引入自动化、治理规则与数据洞察, 非常适合作为服务中台建设的核心枢纽。

平台化 IT 服务管理是否适合中小企业?

平台化并非规模专属。 中小企业同样可以从统一入口、流程整合和自动化中受益, 关键在于循序渐进,而非一次性重构。

平台化 ITSM 是否会增加系统复杂度?

短期内可能需要一定规划成本, 但长期来看,平台化恰恰是为了解决工具堆叠带来的复杂性问题。

服务中台是否意味着完全自动化?

并非如此。 服务中台的目标是“合理自动化”, 在关键节点保留人工决策能力。

如何判断组织是否已具备平台化条件?

当组织开始关注服务一致性、 跨系统协同与治理能力时, 通常已经站在平台化转型的起点。

哈啰 v 友们,中午好。接上篇/t/1187822 小游戏《潜艇进击》抖音版也发布了。

这次继续送积分,大家在空间复制 UID 放下面,后台我给大家每人发 500 积分。可以去商店使用积分兑换特种武器,胜率更高,非常好玩。

放下抖音小游戏码,扫码可以直达(或者抖音直接搜索“潜艇进击”)。

期待可以得到大家的试玩,十分感谢。

众所周知,我们可以为域名申请SSL证书,那么没有域名可以申请SSL证书吗?使用IP地址的网站可以申请SSL证书实现HTTPS加密吗?下面我们将详细介绍。

没有域名可以申请SSL证书吗?

当然可以。没有域名,只有IP地址,可以通过IP地址来申请SSL证书。我们平时访问域名,实质上是在通过访问域名背后的服务器IP地址进入一个网站。因此,对于那些没有域名只有IP地址的网站,可以通过IP地址来申请SSL证书,通常这类证书我们称之为IP SSL证书.IP SSL证书为只能通过IP地址访问的企业解决了其数据传输安全问题,还可帮助用户识别企业网站身份真伪。

IP证书申请流程

一、打开JoySSL的官方网站,注册一个账号。在注册过程中只需填写基本信息即可。重要的是最后一栏注册码务必填写230970才可以获取免费测试公网、内网IP地址HTTPS的资格。

二、选择IP地址SSL证书并试用,填写相关申请信息,包括IP地址、联系人姓名、联系电话和电子邮箱等。

三、提交申请后,JoySSL会自动生成CSR,并按照系统提示选择服务器文件验证IP地址所有权。

四、一旦您的申请通过验证,10分钟左右,JoySSL会生成并签发HTTPS证书。签发后,您在JoySSL的证书管理页面上下载已签发的证书文件。

五、根据您使用的服务器软件(如Apache、Nginx、IIS等),按照相应的配置指南将证书文件和私钥文件配置到服务器上。

六、使用浏览器访问您申请证书的IP地址,检查浏览器是否显示绿色的安全锁图标,并且地址栏以“https://”开头。如果一切正常,您应该能够安全地访问该IP地址提供的服务。

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、阿里发布万亿参数模型 Qwen3-Max-Thinking,性能对标 GPT-5.2

昨天,阿里正式发布千问旗舰推理模型 Qwen3-Max-Thinking。该模型总参数量超万亿(1T),在多项权威评测中刷新全球纪录,官方宣称其性能媲美 GPT-5.2、Gemini 3 Pro,是迄今为止最接近国际顶尖水平的国产 AI 大模型。

Qwen3-Max-Thinking 的预训练数据量高达 36T Tokens,并在预览版基础上进行了更大规模的强化学习后训练。在涵盖事实知识、复杂推理、指令遵循等 19 个基准测试中,该模型刷新了数项最佳表现(SOTA)纪录。

根据官方公布的评测数据,Qwen3-Max-Thinking 在启用 TTS(Test-time Scaling)机制后,在科学知识(GPQA Diamond)测试中得分 92.8,略高于 GPT-5.2 的 92.4;

在数学推理(IMO-AnswerBench)和代码编程(LiveCodeBench 2025.02-2025.05)中分别取得 91.5 和 91.4 的高分,均优于 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Pro。

特别是在启用工具的「人类最后的测试」(Humanity's Last Exam with Search)中,该模型得分为 58.3,大幅领先 GPT-5.2-Thinking 的 45.5 分,录得当前所有模型的最高分。

技术层面,阿里表示 Qwen3-Max-Thinking 采用了一种全新的测试时扩展机制。 与业界普遍的简单增加并行推理路径不同,新机制能对此前推理结果进行「经验提取」式的提炼,通过多轮自我迭代在相同上下文中实现更高效的推理计算。

此外,模型大幅增强了自主调用工具的原生 Agent 能力。 经过基于规则奖励与模型奖励的联合强化学习训练,模型可自适应选用搜索、个性化记忆和代码解释器等核心工具,不仅回答更流畅,还大幅降低了模型幻觉。

目前,普通用户可通过千问 PC 端和网页端免费试用新模型,千问 App 也即将接入;企业开发者则可通过阿里云百炼获取 API 服务。

体验链接

Qwen Chat: https\://chat.qwen.ai/

阿里云百炼:

https\://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23

( @APPSO)

2、打通感知、交互与执行:讯飞星辰升级多模态全栈能力,加速智能体规模化落地

1 月 26 日,讯飞星辰智能体平台官宣重大升级,实现了讯飞星辰智能体平台和 AIUI 开放平台完全打通、升级超拟人交互技术、支持快速定制音色、RPA 升级,提供一套全面且完整的多模交互解决方案,让智能体拥有更全面的类人化交互能力、全场景执行能力。

  • AIUI 开放平台接口打通 :支持在「讯飞星辰」创建智能体并一键发布至 AIUI,实现语音交互与机器人动作规划(如桌面机器人绘本生成、运动轨迹)的同步调用与快速集成。
  • 秒级「一句话声音复刻」 :利用超拟人交互技术,支持通过自然语言描述声线并在几秒内合成 4 个候选音色;支持中英日韩粤等多语种、方言及多风格(新闻、交谈、绘本)音色生成。
  • 单图构建多模态数字分身 :支持通过一张照片快速生成数字人,其口型、表情及动作由大模型自动驱动;结合多模态视觉理解,支持智能体实现主动迎宾与环境感知的交互闭环。
  • RPA 执行能力组件化 :升级网页自动化智能组件,支持非专业开发人员通过低代码配置参数进行流程编排;提供开源可视化数据表格功能,实现数据提取与处理过程的透明化。

最直观的一个例子就是,将 为智能体定制声音的时间压缩到了几秒钟

发布会的实际演示中,操作人员在讯飞星辰智能体平台生成了曹操人格的智能体后,通过自然语言描述想要的音色声线、输入试听文本、点击生成,就在几秒内合成 4 个候选音色。接着选择保存、应用音色后,用户就能与刚刚的曹操人格智能体进行语音聊天。

这是讯飞星辰智能体平台此次升级的一个缩影,而智能体的未来形态,将从单一工具,升级为兼具感知、交互能力,拥有专属声音、形象与性格人设,还能自主完成操作执行的全能型智能体,驱动这一切进化的核心,正是多模交互技术

当前海内外大厂与科创企业均在智能体平台赛道加速布局、密集发力,但行业仍普遍面临技术落地难、场景适配不深的核心痛点。

讯飞星辰智能体平台此次实现感知、交互、执行三大核心能力的一体化整合,从底层打破智能体落地过程中的技术协同壁垒,直面其场景适配难题,为智能体技术的规模化落地扫清关键障碍。

简言之,讯飞星辰智能体平台此次升级,核心便是瞄准降低智能体开发门槛、丰富其可落地的能力边界两大核心目标,在扩展服务能力的基础上,还提供了低代码、一键接入、快速接入等快速开发部署工具。

总的来看,当前智能体产业技术成熟度足够支撑场景落地,市场需求旺盛,但落地效率与成本仍是核心瓶颈,而打通场景适配、能力集成、生态协同的全栈能力,将成为智能体产业竞争的核心壁垒。

相关链接:

https\://agent.xfyun.cn

(@智东西、@讯飞开放平台)

3、Google 支付 6800 万美元和解金,解决语音助手「监视」用户的指控

据路透社报道,Google 已同意支付 6800 万美元,以解决一项指控其语音助手非法监视用户、并利用相关数据投放广告的索赔诉讼。

Google 在这项集体诉讼的和解协议中并未承认存在任何不当行为。该诉讼指控 Google「在未经个人同意的情况下,非法且故意地拦截并录制个人的机密通信,并随后将这些通信未经授权地披露给第三方。」诉讼进一步声称,「从这些录音中收集的信息被错误地传输给了第三方,用于定向广告及其他目的。」

该案件的核心争议集中在「错误唤醒」上,即指控 Google Assistant 即使在用户未通过唤醒词有意触发的情况下,也会自动激活并录制用户的通信内容。TechCrunch 已就此联系 Google 寻求置评。


长期以来,美国民众一直怀疑电子设备在不适当地监视他们,这些怀疑正日益转化为法律诉讼。2021 年,苹果公司曾同意支付 9500 万美元,以解决关于其语音助手 Siri 在未获用户提示的情况下录制对话的类似指控。

与其他科技巨头一样,Google 近年来也面临着多起隐私相关的诉讼。去年,该公司同意向得克萨斯州支付 14 亿美元,以解决两起指控其违反该州数据隐私法的诉讼。

( @TechCrunch)


02 有亮点的产品

1、249 元起,苹果推出升级版 AirTag,精确查找范围扩大 50%

昨天,苹果突然官宣,正式推出新款 AirTag,采用与 iPhone 17 系列、iPhone Air、Apple Watch Ultra 3 及 Apple Watch Series 11 相同的第二代超宽带芯片,在连接范围、精确查找能力与扬声器音量方面均进行了大幅升级:

  • 精确查找范围最高提升 50%,定位更快更准
  • 蓝牙连接范围扩大,远距离也能找到
  • 扬声器音量提升 50%,提示音更响亮
  • 支持 Apple Watch 精确查找,查找场景更丰富
  • 「查找」网络升级,脱离配对设备也能回传位置
  • 防追踪机制强化,跨平台警报更可靠
  • 支持共享物品位置,协助航空公司找回延误行李
  • 外壳与磁铁采用高比例再生材料,更环保

新款 AirTag 已正式开售。售价方面,单件装售价 249 元,四件装售价 849 元,并提供免费镌刻服务。零售店将于本周晚些时候陆续上架。

与此同时,苹果今天还推送了 iOS、iPadOS 和 watchOS 26.2.1,主要更新内容是新增对 AirTag 2 的支持。

( @APPSO)

2、京东「抢跑」淘宝,首款智能眼镜购物应用落地乐奇 Rokid

1 月 26 日消息,京东科技购物智能体 JoyGlance 正式登录智能眼镜品牌乐奇 Rokid,标志着行业首款智能眼镜购物应用正式落地,是京东布局「具身智能消费场景」的关键一步。

用户只需将 Rokid 眼镜系统更新至最新版本,应用由京东自研大模型 JoyAI 驱动,深度融合 Rokid 在光波导显示、远场语音交互与自研操作系统上的硬件能力,将传统网购流程从「搜索—浏览—比价—下单—支付」五步,压缩为极简的 「说、看、付」三步

据悉,2025 年 10 月,Rokid 乐奇与京东科技就达成战略协议。此次携手,不仅是技术突破,更是消费入口的迁移,开启全球首个「所见即购买」的智能眼镜全链路购物入口,实现「目光所及、皆可购买」

当购物从「指尖滑动」转向「目光注视」,智能眼镜正从可穿戴设备升级为下一代空间计算与消费交互终端。用户不再依赖搜索框或直播链接,而是将物理世界直接转化为购物入口,或为电商行业开辟了全新的场景。

(@即智 Ultra)

3、LiveTok 发布「LiveTok Avatars」:支持单张照片生成实时交互式 AI 数字孪生

LiveTok 推出基于 AI 的虚拟助手平台「LiveTok Avatars」。该产品支持通过单张静态照片构建具备实时音视频交互能力的数字分身,旨在通过拟人化的「数字孪生」替代传统文字客服,实现 24/7 的实时客户互动。

  • 单图驱动数字孪生 :用户仅需上传单张人物照片,AI 即可生成具备面部动态的克隆形象,无需复杂的视频采集。
  • 行为与语调克隆 :AI 模型通过学习可复刻特定个体的说话风格、语速及特定动作习惯,提供具备自然停顿的类人语音响应。
  • 低代码 Web 集成 :支持通过嵌入数行代码直接在网站部署,无需复杂的后端环境配置。
  • 实时音视频同步 :提供低延迟的实时语音对话环境,演示版本目前支持单次最高 2 分钟的交互。

目前处于 Beta 测试阶段,提供免费起步版,特定「数字孪生」功能需申请加入 Waitlist。

相关链接:

https\://www.livetok.ai/products/avatars

( @LiveTok)

4、阶跃星辰获超 50 亿人民币融资,印奇出任董事长

昨天,大模型创业公司阶跃星辰(StepFun)完成超 50 亿人民币 B+ 轮融资,创下过去 12 个月大模型赛道单笔最高融资纪录。上国投先导基金、国寿股权、浦东创投、徐汇资本、无锡梁溪基金、厦门国贸、华勤技术等产业投资方参与本轮融资,腾讯、启明、五源等老股东继续加码。本轮资金将主要用于基础模型研发,并加速「AI + 终端」战略落地。

同日,阶跃星辰宣布千里科技董事长印奇正式出任公司董事长,全面负责公司战略节奏与技术方向。 印奇此前已深度参与阶跃星辰的战略规划,其加入被视为公司在大模型「季后赛」阶段强化产业落地能力的关键一步。

这笔融资规模不仅超过月之暗面此前宣布的 5 亿美元 C 轮,也高于智谱与 MiniMax IPO 募资额,成为近期 AI 资本市场最受关注的事件之一。

过去两年间,该团队在「百模大战」中突围,跻身国内大模型第一梯队,并持续坚持预训练路线,构建了覆盖语言、多模态、音频、动作等方向的完整模型矩阵。

印奇的加入补足了阶跃星辰在产业落地上的关键能力。作为旷视科技联合创始人,印奇在 AIoT、城市级物联网系统等领域拥有丰富经验,其长期关注的「AI+终端」路径也与阶跃星辰的战略方向高度一致。

  • 在商业化方面,阶跃星辰已与国内六成头部智能手机品牌达成深度合作,模型装机量突破 4200 万台,覆盖 OPPO、荣耀、中兴等品牌,日均服务用户达 2000 万人次;
  • 在汽车领域,公司与千里科技、吉利合作,将端到端语音模型集成至智能座舱系统,吉利银河 M9 上市 3 个月销量接近 4 万辆,阶跃星辰今年的车载模型装车目标为百万级;
  • 在技术路线方面,阶跃星辰坚持「原生多模态」策略,直接从图文交错语料进行端到端训练,以提升模型对物理世界的理解能力。其音频模型 Step-Audio-R1.1 通过 MGRD 技术在权威榜单 Artificial Analysis 上取得全球第一。

印奇的加入意味着阶跃星辰将加速推进「AI 进入物理世界」的战略,并在手机、汽车等消费终端形成更具确定性的商业闭环。

( @APPSO)


03 有态度的观点

1、俞敏洪:AI 或消灭大量教师岗位,中小学教师「一大半是不合格的」

据快科技报道,新东方创始人俞敏洪近日在今年崇礼论坛上围绕互联网与人工智能对教育行业的影响发表最新观点。

他指出,技术变革正推动教育从「一张嘴一块黑板」到「互联网 + 教育」,再迈向「AI + 教育」,并强调这一趋势将深刻改变教师岗位结构。

俞敏洪表示,互联网仍在人类可控范围内,但其带来的舆论放大效应已深刻影响个人生活。他提到,过去三年遭遇的网暴与互联网环境密切相关。

相比之下,人工智能的影响更具结构性,其在教育、医疗、生物等领域的应用将持续扩大。

在教育场景中,他认为 AI 已能完成接近 100% 的英语交流与作业批改,不仅提升效率,也减轻学生面对老师时的心理压力。他指出,AI 的普及可能会「消灭大量老师岗位」,因为基础知识传递正被技术快速替代。

他进一步强调,未来教师的核心价值将转向激发学生潜能、塑造人格与引导成长,这些能力无法被技术替代。


按照这一标准,他直言目前国内中小学教师「一大半不合格」,部分教师面对学生提问时因无法回答而迁怒学生的现象亟需改善。

俞敏洪还回顾新东方在「互联网 + 教育」时代的结构性变化:互联网放大名师影响力,使大量优秀教师离开线下课堂,包括他本人也不再走进教室授课。

他认为,AI 的到来将带来更深层次的行业重塑,对教师提出更高要求,而这些要求比以往更难达到。

他强调,人工智能的最终走向取决于使用者,而非技术本身,教育行业需要在技术变革中重新定义教师角色与价值。

( @APPSO)


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


作者提示: 个人观点,仅供参考​

在复杂的企业级报表设计中,分页信息(如“第 X 页,共 Y 页”)是不可或缺的元素。然而,面对日益复杂的主从(Master-Detail)报表需求,传统的全局分页往往显得心有余而力不足。

今天,我们将深度解密 SpreadJS V19.0 中增强的 R.CURRENTPAGE 和 R.PAGESCOUNT 公式,看它们如何通过一个简单的参数,完美解决分组分页统计的难题。

1.业务痛点:当全局页码遇上主从报表

在开发如“年度销售汇总”、“个人工资单”或“客户对账单”等报表时,我们经常使用主从报表结构。

  • 全局页码:告诉读者整份文档有多少页。
  • 分组页码:这才是真正的痛点。例如,一份包含 100 个客户的对账单报表总共有 500 页,但客户 A 的账单可能只占其中的第 3 到第 5 页。对于客户 A 来说,他希望看到的是“第 1 页,共 3 页”,而不是“第 3 页,共 500 页”。

在过去,实现这种逻辑需要复杂的代码计算或繁琐的变通方案。而 SpreadJS V19.0 报表插件(ReportSheet)通过对基础公式的增强,将这一难题化繁为简。

2.公式进化:引入 use_grouped_context 参数

在 V19.0 中,我们为 R.CURRENTPAGER.PAGESCOUNT 两个核心分页函数引入了一个关键的可选参数:use_grouped_context(布尔值,默认值为 false)。

公式详情:

  • R.CURRENTPAGE(use_grouped_context)

    • false(或不传):返回整份报表的全局当前页码。
    • true:返回当前主从分组(Group)内的逻辑当前页码。
  • R.PAGESCOUNT(use_grouped_context)

    • false(或不传):返回整份报表的全局总页数。
    • true:返回当前主从分组(Group)内的逻辑总页数。

3.实战演示:双重页码并存

为了让大家更直观地理解,我们来看两个典型的应用场景。

场景一:获取全局分页信息(传统模式)

这是最基础的用法,适用于普通长报表。通过 CONCAT 函数拼接,我们可以轻松在报表底部显示全局进度。

image.png

场景二:主从报表的分组分页(V19.0 新能力)

这是 V19.0 的核心突破。在主从报表中,我们可以同时显示两种页码。 例如,公式 =CONCAT("分组内第", R.CURRENTPAGE(TRUE), "页,共", R.PAGESCOUNT(TRUE), "页") 可以精准捕获每个子数据块的分页信息。

image.png

如上图所示,当报表按客户分组且每个客户的明细数据触发按行分页时,V19.0 能够自动识别当前上下文,为每个客户独立计算“页码包裹”。

4.为什么这个特性对开发者至关重要?

  1. 所见即所得的交互体验:结合 V19.0 同时推出的“主从表支持数据分页”和“自动填充空白行”功能,开发者可以设计出结构高度统一、极具专业感的打印版报表。
  2. 极低的学习成本:无需编写一行 JavaScript 代码,仅需在 Excel 风格的公式中增加一个 TRUE 参数,即可完成复杂的报表逻辑。
  3. 精准的流程管控:在财务审计、计量检测等对数据追溯要求极高的行业,独立的组内页码能够有效防止文档混淆,确保每一份子报告的完整性。

结语

SpreadJS V19.0 对 R.CURRENTPAGER.PAGESCOUNT 公式的增强,虽然看似只是参数的微调,实则是对报表底层上下文感知能力的深度重构。它标志着 SpreadJS 在处理复杂中国式报表、主从嵌套报表领域迈向了新的台阶。

“道阻且长,行则将至”。我们始终致力于为开发者赋能,让每一行代码都能转化为更卓越的用户体验。

今天,Andrej Karpathy 又发了一条很长的推文。

 

他分享了使用 Claude 进行数周高强度编程后的心得体会,并且表示自己过去 20 年形成的编程工作方式,在短短几周内发生了明显变化:从 11 月还以手写和自动补全为主,到 12 月迅速切换成大约 80% 交给 agent、自己做 20% 的修改润色。

 

与此同时,他提到 Claude 和 Codex 在 2025 年 12 月左右跨过了某种“一致性/连贯性门槛”,让这种以 agent 为主的写法突然变得可行,并且很难再回到完全手写的状态。

 

“2026 年将是充满活力的一年,因为整个行业都在消化吸收这项新技术。”

 

一个月前,顶级工程师说“我落后了”

 

而就在一个月前,这位提出“vibe coding”一词的人,还在 X 上写过另一段让人印象深刻的话。

 

“我从没像现在这样,作为一名程序员感到如此落后。”

 

在那条 X 动态中,Karpathy 写道,这个职业正在被“剧烈地重构”,个人程序员贡献的代码行数正在变得越来越少。

 

“我有一种强烈的感觉:如果我能把过去大约一年里已经出现的这些工具真正串联、用好,我的能力可能会提升 10 倍,”他写道,“没能把这种增益拿到手,感觉明显就是技能问题。”

 

“现在需要掌握的是一层全新的、可编程的抽象层(叠加在以往那些熟悉的抽象层之上):涉及 agent、子 agent,它们的提示词、上下文、记忆、运行模式、权限、工具、插件、技能、钩子、MCP、LSP、斜杠命令、工作流、IDE 集成等。同时,还必须在脑中建立一个覆盖全局的心智模型,用来理解这些本质上随机、会出错、难以解释、而且不断变化的实体的优势与陷阱——而它们如今被突然掺进了原本那套‘老派而扎实’的软件工程体系之中。”

 

这一切更像是“一个强大的外星工具被直接发下来,却没有配套说明书”。“每个人都得自己摸索该怎么握住它、怎么操作它,而与此同时,一场 9 级地震正在撼动整个职业,”他写道。

 

有人说:“如果连他都觉得自己作为程序员已经大幅落后,那就很能说明我们现在处在什么阶段。”因为说这话的人是 Karpathy——长期被视为“走在最前面”的那类人:2015 年加入 OpenAI 成为创始成员之一,之后又很早投身自动驾驶,担任特斯拉 Autopilot 的 AI 负责人。

 

在评论区里,另一位重量级人物也表达了强烈共鸣。Claude Code 的核心作者、Anthropic 工程师 Boris Cherny 坦言,自己“几乎每周”都会有类似的感受。

 

他提到,有时会下意识按老办法去做,做着做着才突然反应过来:“等等,Claude 可能可以直接搞定这个。”

 

最近一次是在排查 Claude Code 的一个内存泄漏。他一开始走的是传统路径:连上 profiler、跑应用、暂停采样、再手动翻 heap 分配记录,一步步排查。但与此同时,他的一位同事处理同一个问题时,直接让 Claude 生成 heap dump,再让模型去读 dump,找出那些“本不该还被保留着”的对象。Claude 一次就命中问题点,顺手提了个 PR,把问题修掉了。“这种事几乎每周都会发生。”他写道。

 

Cherny 还补充了一个很有意思的观察:某种意义上,那些新入职的同事,甚至刚毕业的新人,反而更容易把模型用到位。

 

因为他们不会被“模型做不到什么”的旧印象束缚——那些印象大多是早期模型时代形成的“历史记忆”。而对已经形成使用习惯的工程师来说,每隔一两个月,就得花不小的心理力气去重新校准:模型现在究竟能做到什么——而且这个边界还在持续外扩。

 

他认为软件工程正在发生根本性变化,而即便是他们这些最早的实践者,最难的部分依然是不断调整自己的预期——而这还只是开始。

 

Karpathy 则在评论里加了一个比喻:就像你拿着“激光枪”到处指,有时只打出一堆小弹丸,有时甚至会哑火;但偶尔,当你握对了姿势,一束强力激光会突然喷涌而出,直接把你的问题“熔掉”。

 

工具用顺手了后:“这是 20 年最大变化”

 

到了今天,Karpathy 状态已经明显不一样:不再是“我跟不上”了,而是“我已经换了一种编程方式”。

 

他用一种几乎夸张的方式描述了这种变化:过去 20 年形成的编程习惯,在短短几周内被打断;11 月还主要靠手写和自动补全,到了 12 月,已经变成大约 80% 的代码交给 agent,自己只做 20% 的修改和收尾。与此同时,他也给出了一个时间点上的判断:在他看来,Claude 和 Codex 大约是在 2025 年 12 月左右跨过了某种“一致性/连贯性门槛”,让 agent 编程从“偶尔好用”变成了“可以稳定纳入日常工作流”。

 

这条推文的评论区也一贯的热闹。

 

很快就有人表示,这样的转变并不只是 Karpathy 一个人的感受。一位工程负责人在回复中写道,这和他的体验完全一致:真正让人意外的并不是速度提升,而是写代码这件事反而变得更有趣了。那些重复、机械的脏活累活被拿掉之后,剩下的更多是创造性的、值得投入精力的问题;而那些真正拥抱 AI 辅助开发的工程师,不只是变得更快,还开始尝试以前根本不会去尝试的事情。

 

他引用 Karpathy 的一句话总结这种变化:“不要告诉它怎么做,给它成功标准,然后看它自己跑。”

 

还有不少人盯住的是这组 80/20 的数字变化。

 

“未来这个比例只会继续上升,直到有一天我们几乎不再‘写’代码,而只是负责阅读和审查它。”还有人认为以后的瓶颈不再是打字速度,而是我们审查速度有多快,尤其是去识别那些“agent 幻觉出来却被推进生产分支”的东西。

 

这也势必会积累起“理解债”:因为审查 AI 写出来的代码太费劲,人会越来越倾向于“能跑就先过”,时间久了反而会对自己的代码库理解得越来越少。Karpathy 在评论中表示,他很喜欢“理解债务”这个词,虽然之前没见过,但觉得非常贴切;而且他也承认,这种诱惑确实存在——当 LLM 一次就把问题解决、而且看起来运行得还不错时,人真的很容易就想直接往下走。

 

也有人把这种变化说成一种“角色对调”:我们花了很多年学会写代码,现在更像是在当一个永不睡觉的实习生的项目经理——分派任务、验收结果、兜底风险。

 

总之,工具在变强,角色在重排,瓶颈也在迁移:从“写得快”,变成“看得懂、审得住”。而这一轮变化,显然还没到终点。

 

下面是他今天发布在 X 上的完整长文(按字面翻译,略作通顺处理):

 

过去几周我大量用 Claude 写代码,随手记几条零散想法。

 

编程工作流

 

随着最近一轮 LLM 编码能力的明显提升,和很多人一样,我的工作方式在很短时间内发生了变化:11 月大概还是 80% 手写+自动补全 / 20% agent;到 12 月就变成 80% agent 编码 / 20% 人工改改、收尾润色。也就是说,我现在基本是在用英语“编程”——有点不好意思地用自然语言告诉 LLM 该写什么代码。自尊心多少会疼一下,但能用大粒度的“代码动作”去操控软件这件事,净收益实在太大了,尤其是当你适应它、把它配置好、学会怎么用,并真正想清楚它能做什么、不能做什么之后。

 

这是我近二十年编程生涯里,对基础工作流影响最大的一次变化,而且它是在短短几周内发生的。我猜现在已经有两位数百分比的工程师也在经历类似的转变;但在更广泛的人群中,对这件事的认知可能仍只有个位数低位百分比。

 

IDE / agent 群 / 出错风险

在我看来,现在不管是“IDE 不再需要”的热炒,还是“agent swarm”的热炒,都有点过头了。模型当然还会犯错——如果是你真正关心的代码,我会建议你像鹰一样盯着它们:旁边开一个足够大的 IDE,用来随时检查。

 

而且错误的形态也变了:不再是简单的语法错,而是更隐蔽的概念性错误,有点像一个略显草率、匆忙的初级工程师会犯的那种。最常见的一类是:模型会替你做出一些错误假设,然后不核实就沿着假设一路跑下去。它们也不太会管理自己的困惑:不主动澄清、不揭示不一致、不提供权衡取舍、该反对时也不反对,而且还有点过度讨好。Plan mode 会好一些,但我感觉仍需要一种轻量的、内联的 plan mode。

 

它们也很容易把代码和 API 过度复杂化:抽象膨胀、架构臃肿、自己制造一堆 dead code 却不清理。它们能写出一个低效、臃肿、脆弱的 1000 行实现,然后就等你提醒一句:“呃……是不是其实可以更简单?”它们就会说“当然可以!”并立刻把它砍到 100 行。

 

此外,它们偶尔会作为副作用去改/删一些自己不喜欢、或没完全理解的注释和代码——哪怕这些内容和当前任务是正交的。即使我在 CLAUDE.md 里做了几次简单的指令尝试,这些问题仍会发生。

 

尽管有这些毛病,它依然带来巨大的净提升,而且很难想象再回到纯手工写代码的时代。TL;DR:每个人都有自己的新工作流;我现在的配置是:左边开少量几个 Claude Code 会话(Ghostty 的窗口/标签页里),右边开 IDE 负责看代码和手动改动。

 

韧性。看一个 agent 不知疲倦地死磕某件事真的很有意思。它们不会累,不会灰心,就是持续尝试——很多时候如果换成人,早就放弃、改天再战了。看它为一个问题挣扎很久,30 分钟后又突然赢了,那种“feel the AGI”的感觉很强。你会意识到:耐力本身就是工作的核心瓶颈之一,而 LLM 把这条上限显著抬高了。

 

加速。LLM 辅助带来的“加速”其实不太好衡量。我当然感觉自己做原本要做的事更快了,但更大的变化是:我做了更多,原因主要是两点:

1)我可以写很多以前根本不值得写的东西;

2)我可以去碰以前因为知识/技能门槛而不敢碰的代码。

所以这当然是 speedup,但可能更像是一种“扩张”。

 

杠杆。LLM 特别擅长反复循环,直到达到明确目标——大部分“feel the AGI”的魔法就在这里。与其告诉它怎么做,不如给它成功标准,然后看它自己跑。让它先写测试再通过;把它放进带浏览器 MCP 的闭环;先写一个很可能正确的朴素算法,再让它在保持正确性的前提下做优化。把你的指令从 imperative 转成 declarative,会让 agent 循环更久,从而获得更大的杠杆。

 

乐趣。我原本没预料到:用 agent 编程反而更有趣了,因为大量“填空式苦力活”被拿掉,剩下的更多是创造性部分。我也更少卡住(卡住真的不快乐),同时更有勇气——几乎总能找到一种方式与它并肩作战,推动事情向前。我也见过相反的观点:LLM 编程会把工程师分成两类——主要喜欢“写代码”的人 vs 主要喜欢“造东西”的人。

 

退化。我已经注意到,自己手写代码的能力正在慢慢退化。“生成代码”和“判别代码(阅读/审查)”在大脑里是两种不同能力。因为编程里有大量偏语法的细碎细节,即便你写起来费劲,审代码通常仍能审得很好。

 

Slopacolypse(垃圾内容末日)。我已经在为 2026 做心理建设:那很可能是 GitHub、Substack、arXiv、X/Instagram,乃至整个数字媒体的“slopacolypse”(垃圾内容大爆发)之年。我们还会看到更多 AI 炒作式的生产力表演(这居然还能更夸张吗?),与此同时,也会出现真实而确凿的改进。

 

一些问题。我脑子里的一些问题:“10X 工程师”会怎样?平均工程师与顶尖工程师的生产力差距,可能会被拉大很多。

 

有了 LLM 之后,通才会越来越超过专才吗?LLM 更擅长“填空”(微观)而不是“大战略”(宏观)。

 

未来的 LLM 编程体验会像什么?像玩《星际争霸》?《Factorio》?还是演奏音乐?

 

社会中有多少领域,本质上被数字化知识工作所瓶颈住了?

TL;DR:我们现在处在哪?

到 2025 年 12 月左右,LLM agent 能力(尤其是 Claude 和 Codex)似乎跨过了某种连贯性阈值,并在软件工程及相关领域引发了一次“相变”。现在,“智能”这部分突然显得明显领先于其他所有东西——工具与知识的集成、组织层面的新工作流与流程、以及更广泛的扩散机制。

 

2026 将是高能量的一年:整个行业都在消化、吸收这股新能力。

 

参考链接:

https://x.com/karpathy/status/2004607146781278521

https://x.com/karpathy/status/2015883857489522876

入手的黑色 256G
image
我现在只有一台手机 iPhone12, 21 年首发入的紫色, 无壳无膜裸奔五年了.

降价后 Air 和 17 标准版价格是平齐的了, 让我选 Air 不选 17 的决定因素就两个:

  1. 内存大, Air 是 12G, 17 是 8G;
  2. 12 我用五年的一个原因是这五年标准版外观就没变化, 让我难以说服自己换新; 类比 Air 就像是一个身材滚烫的御姐走到面前问我:

和你那个卡哇伊学妹都处五年了, 现在难道不渴望做些刺激的选择吗?

继昨日开源高精度空间感知模型 LingBot-Depth 后,今天,我们为大家带来了具身大模型 LingBot-VLA。

在上海交通大学开源的具身评测基准 GM-100(包含 100 项真实操作任务)测试中,LingBot-VLA 在 3 个不同的真实机器人平台上,跨本体泛化平均成功率相较于 Pi0.5 的 13.0% 提升至 15.7%(w/o Depth)。引入深度信息(w/ Depth)后,空间感知能力增强,平均成功率进一步攀升至 17.3%,展现了 LingBot-VLA 强大的准确性和泛化性。

640.webp

在 GM-100 真机评测中,LingBot-VLA 跨本体泛化性能领先

在 RoboTwin 2.0 仿真基准(包含50项任务)评测中,面对高强度的环境随机化干扰(如光照、杂物、高度扰动),LingBot-VLA 凭借独特的可学习查询对齐机制,高度融合深度信息,操作成功率比 Pi0.5 提升了 9.92%,实现了从虚拟仿真到真实落地的全方位性能领跑。

640 (1).webp

在 RoboTwin 2.0 仿真评测中,LingBot-VLA 跨任务泛化性能领先

01 Scaling Law 下的大规模真机数据预训练

长期以来,由于本体差异、任务差异、环境差异等,具身智能模型落地面临严重的泛化性挑战。开发者往往需要针对不同硬件和不同任务重复采集大量数据进行后训练,直接抬高了落地成本,也使行业难以形成可规模化复制的交付路径。
图片
针对上述问题,我们基于在海量真实世界数据上的预训练,第一次系统研究了 VLA 模型在真实机器人任务性能上随着数据规模增长时的 Scaling Law。项目发现随着预训练数据规模从 3,000 小时扩展到 6,000、13,000、18,000,最终至 20,000 小时,模型在下游任务的成功率获得持续且显著的提升。值得注意的是,预训练数据量达到 20,000 小时时,模型性能仍呈现上升趋势,表明 VLA 的性能仍然能够随着数据量的增加而提升。这些实验结果证明了 VLA 模型在用真实数据预训练时呈现了良好的可扩展性,为未来的 VLA 开发和大规模数据挖掘提供了重要启示。
图片
依此研究结果,我们仔细构造了 20,000 小时的真实机器人训练数据,涵盖了 9 种主流的双臂机器人构型(包括 AgileX Cobot Magic,Galaxea R1Pro、R1Lite 、AgiBot G1等)。为了进行精确的数据标注,数据里的视频由人工标注者按原子动作进行切分,并用大模型标注视频对应任务和子任务。在 codebase 的开发中,适配了 Fully Sharded Data Parallel (FSDP) 分布式、混合精度、算子融合等优化,从而让同一个“大脑”可以快速迁移至不同形态的机器人上,并在任务变化、环境变化时保持可用的成功率与鲁棒性。

02 深度信息辅助的机器人操控性能提升

640 (2).webp
仿真实验结果

为了显式捕捉操控环境中的空间感知能力,并进一步提升机器人执行的鲁棒性,我们采用了一种基于查询向量(query)的深度蒸馏方法。具体而言,我们引入了与三视角操作图像相对应的可学习 queries,这些 queries 经 VLM 处理后,与 LingBot-Depth 输出的 depth embeddings 进行对齐。这种对齐机制在维持模型训练与推理的效率的同时,有效将深度信息集成到 LingBot-VLA 中。在真实机器人平台和仿真环境下进行的广泛实验证明,深度信息的融入提升了 LingBot-VLA 的操控性能。

03 后训练成本低、效率高、代码全开源,真正实用的 VLA 模型

得益于涵盖主流构型和详尽任务的大规模预训练,LingBot-VLA 具备强大的通用操控能力,并且能够将其高效迁移到多样的下游机器人任务中。实验表明,LingBot-VLA 在下游任务中能够使用更少的数据,达到超越 π0.5 的性能;并且性能优势会随着数据量的增加而持续扩大。目前,LingBot-VLA 已与星海图、松灵、乐聚等知名机器人厂商完成适配,验证了模型在不同构型机器人上的跨本体迁移能力。
图片
与此同时,我们构建了一套高效的后训练工具链,在 8 卡 GPU 配置下实现了单卡每秒 261 个样本的吞吐量,其训练效率达到 StarVLA、OpenPI 等主流框架的 1.5~2.8 倍,实现了数据与算力成本的双重降低。此次开源,我们不仅提供了模型权重,还同步开放了包含数据处理、高效微调及自动化评估在内的全套代码库。我们希望这一举措可以大幅压缩模型训练周期,降低商业化落地的算力与时间门槛,助力开发者以更低成本快速适配自有场景,提升模型实用性。目前我们的模型、后训练代码、技术报告、以及我们和上海交大共同打造的 GM-100 Benchmark 已全部开源,欢迎大家访问我们的开源仓库。

Website:
https://technology.robbyant.com/lingbot-vla

Model:
https://huggingface.co/collections/robbyant/lingbot-vla
https://www.modelscope.cn/collections/Robbyant/LingBot-VLA

Datasets:
https://huggingface.co/datasets/robbyant/lingbot-GM-100

Code:
https://github.com/Robbyant/lingbot-vla

Tech Report:
https://arxiv.org/abs/2601.18692

具身智能的大规模应用依赖高效的具身大模型,这直接决定了模型是否可用以及能否用得起。我们希望通过 LingBot-VLA 的开源,积极探索具身智能上限,推进具身智能研发早日进入可复用、可验证、可规模化落地的新阶段。

本周,我们已相继开源 LingBot-Depth 和 LingBot-VLA 两款模型,未来几天,我们还将陆续为大家带来我们在具身智能领域智能基座方向的更多成果。我们期待与全球开发者、研究者、产业伙伴一起,加速具身智能技术的迭代与规模化应用,助力 AGI 更快到来。

image.png

新元启幕,万象更新;榜单出炉,洞察先机。2026 年首期中国数据库排行榜正式发布,本期榜单整体格局延续此前态势,排名变化不大。回顾 2025 年,国产数据库厂商整体表现稳健,技术路线与产品定位进一步清晰。

在这一背景下,1 月榜单的表现也为观察当前国产数据库市场的竞争格局与发展趋势提供了一个清晰窗口。接下来,和小编一同盘点本月榜单部分产品的亮眼表现。

一、PolarDB 升榜眼,达梦守前三

最新数据库榜单前十揭晓,OceanBase 毫无悬念卫冕榜首,PolarDB 实力突围跃升榜眼,达梦数据库稳坐前三之位。值得关注的是,本月前十排名中,仅 PolarDB 与达梦两家的位次发生调整,其余产品座次保持不变。


图1:中国数据库流行度排行榜前十得分情况

新年伊始,OceanBase 以737.24分稳居榜首,这份领先地位的背后,是其在技术研发、工程实践与战略布局上的全方位深耕。在数据库核心问题研究上,OceanBase始终深耕不辍,联合华东师范大学发表的论文《APQO:自适应参数化查询优化框架》成功入选数据库顶级会议SIGMOD 2026;与中国人民大学合作完成的关系型数据库缺陷实证研究成果,也顺利被IEEE TSE正式录用,通过系统分析777个真实缺陷,足见其在工程质量与底层机制打磨上的持续深耕。

工程与产品打磨上,2025全年OceanBase完成460次投产稳定支撑1500余个关键业务系统运行,在高复杂度生产环境中沉淀出成熟的交付与运维体系;全年累计推进16次版本迭代,新增489项功能与158项数据库相关专利,工程体系化能力进一步夯实。面向AI时代浪潮,OceanBase持续推进一体化战略,不仅发布兼容TP、AP与AI负载的融合版本OceanBase 4.4,还推出AI原生混合搜索数据库SeekDB助力Data × AI战略落地,其在AI就绪数据库方向的探索,更首次获得IDC面向生成式AI的数据基础设施“领导者”评价。

本月 PolarDB以654.49分排名较上月上升一位,跻身榜眼之位,整体表现稳中有进。行业认可方面,Gartner 2025年全球云数据库管理系统魔力象限给出了有力佐证——阿里云连续第六年入选“领导者”象限,且是亚太区唯一入选厂商。这一成绩的背后,作为阿里云核心云原生关系型数据库的PolarDB提供了重要技术支撑,充分印证自身产品成熟度、技术完整性与全球竞争力。


图2:Gartner 2025年全球云数据库管理系统魔力象限

IDC最新报告披露的市场数据同样可观,2025年上半年中国关系型数据库软件市场规模达22.1亿美元,公有云关系型数据库同比增长16.3%,增速优于整体市场;阿里云位列市场前三,在云数据库规模化交付与行业覆盖上的优势,为PolarDB的持续落地与增长筑牢市场基础。


图3:2025 年上半年中国关系型数据库软件市场规模前三名分别为:阿里云、腾讯、华为

达梦数据库本月以614.76分稳居榜单第三名,核心竞争力集中在多关键行业的国产化落地成效,以及技术与生态的双重突破。国产化实践推进中,达梦不断拓宽覆盖边界、提升项目复杂度,在医疗、通信、交通等领域均交出亮眼答卷:助力武汉大学人民医院完成病案管理系统底层数据库升级重构;与福建移动深化国产化替代合作,还助力其斩获“数字中国创新大赛”奖项;参与建设的西镇高速全路段国产化收费系统已实现稳定运行。

底层能力打磨与生态建设同步推进,凭借扎实的生态建设成果,达梦荣获2025 IDC中国生态奖;资本市场上,达梦数据(688692)成功入选“科创板上市公司价值30强”。综合来看,达梦数据库本月稳居前列,正是其在重点行业落地、技术自主可控及生态体系建设上持续发力的必然结果。

金篆信科GoldenDB 本月表现亮眼,以577.06分位居行业排行榜第四位,核心竞争力在权威认可与关键行业落地中充分彰显,成为国产数据库领域的核心标杆。权威评选中,2025数据智能“星河(Galaxy)”案例评选给出有力背书,GoldenDB成为入选案例数量最多的数据库厂商,充分印证其技术落地能力与行业实践深度。

关键行业布局中,运营商领域GoldenDB稳居领先地位,在中国移动、中国联通核心系统数据库市场占比分别超80%、60%,每日支撑9亿+移动用户、12亿+物联网用户计费,与多家移动公司合作的核心业务改造、智能运维等案例均获权威认可,转型成效显著。金融领域更是实现突破,作为业界首家覆盖全类型金融机构核心系统的国产数据库,其服务超100家金融机构,每日承载超100亿笔、10万亿元交易,获头部机构战略投资,连续稳居市场占有率第一。

本月,金仓数据库以568.20分位列行业排行榜第五位,核心优势集中在关键行业持续落地与产品能力的迭代完善上。能源领域始终是其重点实践方向,截至目前,已累计支撑1000余个发电厂项目,部署3000多套数据库,覆盖全国31个省(区),形成扎实的规模化应用基础。

产品能力打磨上,金仓数据库聚焦部署、安全与性能三大核心维度持续优化;行业认可持续加码,金仓数据库与辽宁移动、新疆移动等合作的多项实践成功入选2025数据资产管理大会“星河案例”榜单。

排名第六位的腾讯云TDSQL表现尤为亮眼,核心竞争力集中在金融核心系统领域的规模化落地能力与高可靠运行水平。2025年年终决算作为银行IT体系最具挑战性的关键节点,TDSQL成功护航70余家金融机构实现“零失误”完成决算,覆盖国内超过半数Top 100银行,服务对象涵盖国有大行、头部股份制银行、城商行及支付清算机构,行业覆盖的深度与广度持续提升。

YashanDB稳居行业排行榜前十,回顾2025年,其在行业影响力与技术能力两方面均取得实质进展,不仅跻身墨天轮中国数据库流行度排行榜前十,核心技术能力更获得中国电子学会“国际领先水平”认证,技术成熟度与专业认可度同步提升。

产品与技术演进上,YashanDB V23.5版本以“TP+”为核心理念,面向企业混合工作负载场景进行系统性优化,多个关键模块能力实现跃升。综合来看,崖山数据库在保持榜单稳定位置的同时,通过持续的产品迭代与技术深化,进一步夯实了其在混合负载数据库方向的竞争力。

二、细分产品实力出圈,多元特色创新破局


图4:本月亮点数据库得分情况

在月度中国数据库排行榜的头部阵营之外,一批各具技术特色与落地实力的数据库产品同样表现亮眼。它们或是凭借长期技术积淀夯实竞争力,或是依托行业标杆项目实现排名跃升,或是在细分赛道突破创新,共同勾勒出国产数据库多元化发展的活力图景。

本期榜单中,排名第十一位的 openGauss 的稳定表现源于长期技术积累,核心支撑落在持续的内核演进、软硬协同优化与工程能力沉淀上。去年11月发布的7.0.0创新版,基于鲲鹏920平台在权威HTAP基准测试HyBench中斩获H-Score 2831.89的优异成绩,再度刷新性能纪录。

openGauss Summit 2025的召开,进一步释放出持续演进的明确信号。大会不仅开源业界首个多写数据库架构oGRAC,更发布“1+2”技术战略,敲定多读多写、超节点数据库及AI原生多模态数据库底座的建设方向。

Apache IoTDB 位次稳定保持在第20位,商业场景与航天领域的双重落地突破,成为榜单排名的核心支撑,充分验证其技术成熟度与市场适配能力。依托高吞吐读写能力、高压缩比及端 — 边 — 云协同架构的核心优势,Apache IoTDB 在关键场景中持续彰显硬核实力。航天领域更是斩获亮眼成果,12 月 3 日朱雀三号遥一运载火箭成功首飞入轨,这款国产时序数据库为此次试验提供高效数据管理支撑。

本月,万里数据库排名稳步提升至第34名,重点行业项目的持续落地成为核心增长动力。作为国家级专精特新“小巨人”企业,万里数据库深耕国产自主可控数据库研发,核心产品GreatDB在金融与运营商领域的实践成效持续凸显。在运营商“O域系统国产替代”项目中,GreatDB凭借对MySQL协议与生态的高度兼容,实现应用平滑迁移与业务连续运行,迁移效率与运维友好性得到充分验证。深厚的技术积淀叠加丰富的行业实践,让万里数据库已构建起成熟的自主可控数据库解决方案。

同方数科自主研发的KBase多模数据库成为本月榜单最大“黑马”。独特的搜索/NXD/RDF/向量四模一体架构是KBase的核心竞争力,集成98%精准度中文处理算法与400万概念词典,全文检索性能达2TB/s,十亿级向量检索可实现毫秒响应,在大规模知识管理与复杂数据处理场景优势显著。目前产品已通过信通院搜索型数据库与向量数据库双评测,斩获35项信创认证,全面适配鲲鹏/飞腾芯片及统信/麒麟系统,核心能力获得权威背书。

近期,一款数据库新品凭借亮眼动作引发行业关注 —— 数翊科技自主研发的海纳数据库(HexaDB)于 12 月完成近亿元融资,这款定位于库仓一体型的产品,精准覆盖高并发交易与实时分析并存的复杂业务场景,成长势头强劲。

成立于 2022 年的数翊科技,已凭借 HexaDB 在金融、智能制造、车联网、物联网等领域服务多家头部客户,产品逐步切入企业关键业务系统。技术架构上,数翊科技构建起自主创新的 H-T-A-I-P 全栈技术体系,实现交易型、分析型与智能型业务的一体化融合。研发布局层面,华中研发总部已落地武汉光谷,聚焦核心技术持续攻坚,强化区域服务与产业协同。随着技术能力、行业实践与研发布局的持续完善,HexaDB 正在实时库仓一体化与 “DB for AI” 方向上,逐步释放工程化与商业化潜力。

三、见证荣耀时刻,2025年度数据库奖项揭晓

在全球数字化转型持续深入与国家信创战略全面落地的双重推动下,数据库作为支撑数字经济运转的核心基础设施,正经历着从技术跟跑到自主引领的关键跨越。2025 年,云原生与人工智能的深度融合,不仅重构了数据库的技术架构,更催生出多元化的行业应用场景,国产数据库厂商也在核心技术突破与关键系统替代中交出亮眼答卷。

为梳理年度发展成果、树立行业标杆,墨天轮社区依托近 50 个权威评估指标启动 2025 年数据库奖项评选。接下来,就让我们一同揭晓本年度脱颖而出的行业璀璨亮点。

点击查看年度获奖名单


图5:2025年度数据库获奖名单

本次评选落下帷幕,上榜的每一款产品都以独特的技术优势与应用价值,勾勒出数据库领域的年度发展图景。我们期待,未来能见证更多产品在自主研发的道路上稳步迈进,在关键场景中持续释放价值,书写国产数据库的崭新篇章。


相关阅读

原文链接https://www.modb.pro/db/2010657961249693696

欲了解更多可浏览墨天轮社区,围绕数据人的学习成长提供一站式的全面服务,打造集新闻资讯、在线问答、活动直播、在线课程、文档阅览、资源下载、知识分享及在线运维为一体的统一平台,持续促进数据领域的知识传播和技术创新。

关注官方公众号: 墨天轮、 墨天轮平台、墨天轮成长营、数据库国产化 、数据库资讯

目前一键注册的用户头像存的是第三方 Google 或 Github 的头像 url,这会导致正常访问无法直接显示出 Google 的头像,所以做了一个迁移计划,在今天的合适实际会执行自动迁移,若迁移的头像出现问题可及时和我反馈,迁移前我会记录原头像 url 避免出现错误无法回退。

另外一些优化更新:

  1. oAuth 的授权现在会显示应用作者的一些信息以及应用的域名页面方便快速访问
  2. oAuth 应用申请和 secret 重置增加了推送提醒
  3. 修正了 oAuth 接口不安全的返回 secret 问题,已有应用的 secret 我已做了重置,上线疏忽抱歉sobbing
  4. 修正了一键排版未做金币的消耗判断
  5. 优化帖子评论分页记录,现在只要链接 p 参数变化就会记录上一次访问的分页值下次访问会直接到该分页,之前只在手动切换分页时记录
  6. 编辑金币优化,现在编辑的内容长度会与原内容长度做对比,使用差值做金币计算,新内容长度比旧内容短的话,不再消耗金币
  7. 图片的显示增加了宽度像素配置

各位更新有问题可及时反馈doge_flower

今天,我们正式开源了 LingBot-Depth 空间感知模型。

点击查看视频

不同于数字世界,具身智能的落地高度依赖物理空间信息,空间智能是其在现实场景落地应用的核心关键,而视觉维度下支撑空间智能的重要桥梁正是距离与尺度(Metric Depth)。基于这一核心需求,空间感知模型 LingBot-Depth 应运而生。

LingBot-Depth 是一种面向真实场景的深度补全模型,依托奥比中光 Gemini 330 系列双目 3D 相机进行 RGB-Depth 数据采集与效果验证,并基于深度引擎芯片直出的深度数据进行训练与优化,旨在将不完整且受噪声干扰的深度传感器数据转化为高质量、具备真实尺度的三维测量结果,提升环境深度感知与三维空间理解能力,为机器人、自动驾驶汽车等智能终端赋予更精准、更可靠的三维视觉。

实验结果表明,本模型在深度精度与像素覆盖率两项核心指标上均超越业界顶级工业级深度相机。在 NYUv2、ETH3D 等多个基准测试中,LingBot-Depth 在深度补全、单目深度估计及双目匹配任务上均达到当前最优水平,并在无需显式时序建模的情况下保持视频级时间一致性。LingBot-Depth 模型也已通过奥比中光深度视觉实验室的专业认证,在精度、稳定性及复杂场景适应性方面均达到行业领先水平。
640.webp
注解:在最具挑战的稀疏深度补全任务中,LingBot-Depth 性能整体优于现有多种主流模型。(图中数值越低代表性能越好。)

下游任务验证进一步表明,模型能够在 RGB 与深度两种模态之间学习到对齐的潜在空间表征,从而实现对透明及反光物体的稳定机器人抓取。

01技术架构:创新的掩码深度建模范式

640 (1).webp
在家庭和工业环境中,玻璃器皿、镜面、不锈钢设备等透明和反光物体物体十分常见,但却是机器空间感知的难点。传统深度相机受制于光学物理特性,在面对透明或高反光材质时,往往无法接收有效回波。针对这一行业共性难题,我们研发了“掩码深度建模”(Masked Depth Modeling,MDM)技术。训练过程中,我们使用海量 RGB–深度图像对,但刻意遮挡其中一部分深度区域,让模型仅根据 RGB 图像去预测缺失的深度值。随着训练进行,模型逐渐学会建立“外观—几何”之间的对应关系,也就是从“物体看起来像什么”推断“它大概有多远”。

在涵盖家庭、办公环境、健身房及户外场景的上千万张图像数据上完成训练后,当深度相机传回的数据出现缺失或异常时,LingBot-Depth 模型已能够融合彩色图像(RGB)中的纹理、轮廓及环境上下文信息,对缺失区域进行推断与补全,输出更完整、致密、边缘更清晰的三维深度图。

02 核心亮点

精准且稳定的相机深度感知

LingBot-Depth 在传统深度传感器易失效的复杂场景中,仍可输出具备真实尺度的高精度深度结果,包括透明物体、玻璃表面以及高反光材质等极具挑战性的环境。不同于依赖硬件改进的方案,本模型从视觉理解层面弥补传感器缺陷,实现对真实三维结构的可靠恢复。

除单帧精度优势外,LingBot-Depth 还表现出优异的时间一致性。在无需显式时序建模的情况下,模型即可为视频输入生成稳定、连贯的深度序列,有效避免闪烁与结构跳变问题,为机器人操作、AR/VR 以及动态场景感知等应用提供可靠的连续空间理解能力。
image.png

卓越的 3D 和 4D 环境感知能力
LingBot-Depth 为下游空间感知任务提供了坚实而通用的基础能力。通过将含噪且不完整的传感器深度优化为干净、稠密且具备真实尺度的三维测量结果,模型显著提升了多种高层视觉任务的稳定性与精度。具体而言,LingBot-Depth 支持:

更加准确的结构化室内场景建图,并有效提升相机位姿与运动轨迹估计的精度;

面向机器人学习的可靠 4D 点跟踪能力,在统一的真实尺度空间中同时刻画静态场景几何结构与动态物体运动。这使得系统能够在复杂真实环境中建立一致、连续且可用于决策与交互的空间理解表征。
11.jpg

灵巧抓取操作适用于透明与反光物体
通过在统一潜在空间中联合对齐 RGB 外观信息与深度几何结构,LingBot-Depth 使机器人在以往难以处理的复杂场景中实现稳定可靠的操作能力。基于模型优化后的高质量深度结果及跨模态对齐特征,我们进一步训练了一种基于扩散模型的抓取位姿生成策略,在透明杯、反光金属容器等具有挑战性的物体上取得了较高的抓取成功率。在真实机器人测试中,在透明储物盒等传统传感器难以处理的场景中,LingBot-Depth 通过生成合理的深度估计,成功实现了 50% 的抓握率,突破了技术瓶颈。
640 (2).webp
点击查看视频

03 从实验室到落地应用:显著提升消费级深度相机对高难物体的处理效果

LingBot-Depth 展现出与现有硬件设备的良好适配性。在不更换更高成本传感器的情况下,模型可提升可靠性并降低系统部署门槛。LingBot-Depth 模型依托奥比中光 Gemini330 系列双目 3D 相机进行效果测试,结果显示:面对透明玻璃、高反射镜面、强逆光以及复杂曲面等极具挑战性的光学场景,搭载 LingBot-Depth 后输出的深度图变得平滑、完整,且物体的轮廓边缘非常锐利,效果优于业内领先 3D 视觉公司 Stereolabs 推出的 ZED Stereo Depth 深度相机。
!上传中...640 (3).webp
注解:搭载 LingBot-Depth 后,奥比中光 Gemini 330 系列在透明及反光场景下深度图的完整性和边缘清晰度明显提升
640 (4).webp
注解:奥比中光 Gemini 330 系列相机搭载 LingBot-Depth 后输出的深度图效果优于业界领先的 ZED 深度相机

这意味着在不更换传感器硬件的前提下,LingBot-Depth 可显著提升消费级深度相机对高难物体的处理效果,降低机器人因深度缺失与噪声引发的抓取失败与碰撞风险。在具身智能、自动驾驶等领域都有一定应用价值,能够极大程度提升具身操作的精准度。

目前,我们已与奥比中光达成战略合作伙伴关系,将基于 LingBot-Depth 模型推出新一代深度相机,依托 Gemini 330 系列相机提供的芯片级 3D 数据,进一步通过技术协同、生态共建,为机器人处理各行各业极端场景、走向真正落地提供强大的技术支撑。

LingBot-Depth 已成功实现模型轻量化与端侧部署,具备在边缘计算设备上高效运行的能力。未来,我们期待通过开源开放与生态合作,和广大合作伙伴一起加速具身智能在家庭、工业、物流等复杂场景的大规模应用落地。

目前我们的模型、代码、技术报告已全部开源,欢迎大家访问我们的开源仓库。

Website:
https://technology.robbyant.com/lingbot-depth

Model:
https://huggingface.co/robbyant/lingbot-depth

Code:
https://github.com/Robbyant/lingbot-depth

Tech Report:
https://github.com/Robbyant/lingbot-depth/blob/main/tech-report.pdf

后续我们还将开源 300 万对精心标注的 RGB-深度数据,包括 200 万对实拍 RGB-D 样本,和 100 万对渲染样本,推动空间感知技术的开源生态建设和技术创新。

LingBot-Depth 的开源标志着我们在空间智能领域迈出的第一步。本周,我们还将陆续为大家带来我们在具身智能领域智能基座方向的更多成果,我们期待与全球开发者、研究者、产业伙伴一起,共同探索具身智能的上限。
image.png

生成式 AI 的投资回报远超预期?Snowflake 调研全球 1900 位企业与 IT 专业人士后发现平均 ROI 高达 41%!点击下载完整报告

AI Copilot 和自主智能体的崛起正在重新定义开发者的意义。在 BUILD 2025 的一场重磅主题分享中,Vercel CEO 和 Next.js 的创始人 Guillermo Rauch 深入探讨了 AI 如何改变开发者的体验。AI 将我们的角色从编写代码转变为有意图地引导智能系统。在这个未来中,AI 原生工具将大大提升开发者的生产力、创造力和规模。

Guillermo Rauch 从自身经历出发,系统性地拆解了 AI 浪潮下,开发范式正在发生的结构性变化。这并非一场关于工具或技巧的演示,而是一份面向当代开发者的生存指南:当技术能力不再稀缺,什么才是决定长期价值的核心能力?他的判断很明确,我们正经历一场从“页面”走向“Agent”的转型,其深度与影响,堪比第一代互联网的诞生。

从“页面的云”到“Agent 的云”

Rauch 回顾了 Vercel 的起点。2014 年,当开发者仍需在路由、编译器、集群和部署细节中反复挣扎时,真正能高效构建和交付产品的,只有少数拥有内部基础设施的大公司。

Vercel 以及 Next.js 的诞生,本质上是一次“能力下放”,让原本只属于头部公司的开发效率,成为更广泛开发者的默认能力。

而今天,类似的分化正在 AI 领域重演。

他指出,支撑第一代 Web 的云基础设施,本质上是“为页面而生”的:优化加载速度、依赖 CDN、围绕一次性请求与响应展开。但在 Agent 驱动的应用形态中,这套逻辑开始失效。新的应用形态不再以页面为中心,而是以持续运行、长时间“思考”、多步骤编排的智能体为核心。

因此,云的目标也随之发生变化:

  • 算力不再只追求“更快返回”,而是要支持更长时间、更复杂的推理;

  • 基础设施不再围绕页面分发,而是围绕“token 流动”和智能调用;

  • 搜索和触达不再依赖排名,而是通过 Agent 主动嵌入到用户的工作场景中。

在这一意义上,他将新的基础设施形态称为“面向 Agent 的云”。

界面没有消失,只是变成了生成式

与基础设施变化同步发生的,是用户界面的根本转型。

传统的软件界面是确定性的:开发者可以精确控制每一个像素,预期用户将看到什么、点击什么、进入哪条路径。但在 AI 时代,界面正在变成生成式和自适应的,按需生成、随上下文变化,并高度个性化。

Rauch 特别强调,这并不意味着前端或用户体验的重要性下降,恰恰相反,体验比以往任何时候都更重要。变化的只是如何构建体验:从事先设计好所有界面,转向在需要时即时生成最合适的呈现方式。

他以 Snowflake 与 Vercel 的生成式 UI Agent(V0)的集成为例:复杂的数据分析结果,可以在对话中即时生成可视化界面,让非技术用户也能理解。这背后的趋势,是行业从“代码优先”逐步迈向“代码后置”,代码不再是价值本身,而是服务于结果的一种中间形态。

当谁能写代码不再重要

如果说基础设施和界面的变化,重塑了怎么构建,那么更深层的变化在于——谁可以参与构建

Rauch 认为,软件开发正在从一项高度专业化的技能,转变为一种普遍能力。过去,门槛在于语法、工具链、基础设施;而现在,门槛正在转移到一个新的维度:意图是否清晰

在 AI 的帮助下,表达能力本身成为新的基础素养。会不会写代码,正在被能否准确表达你想要什么所取代。他将这种变化视为 JavaScript 普惠化的升级版:如果说框架和平台曾让大量前端开发者成为云工程师,那么 AI 则让更多非技术背景的人,第一次具备了构建软件的能力。

在这种背景下,个人技能的价值排序正在被重写。Rauch 提出了一个残酷但现实的判断:不要过度依附于某一项具体技能。正如心算曾经是优势,但最终被机器超越,编程技能也正在进入类似阶段。

真正重要的,是他所说的“元技能”。

交付,正在成为最核心的元能力

在 AI 可以生成无限方案的时代,开发者真正需要承担的角色,不是代码执行者,而是判断者与交付者

Rauch 将“交付(Shipping)”视为当代开发者最关键的元能力。它不等同于写代码,而是一种端到端的综合能力:从问题判断、产品设计、实现方式,到测试、迭代、讲清楚价值,并持续提高标准。

在他看来,AI 不只是提升效率的工具,更应该服务于质量。他反复强调一个立场:更快地生成代码,不应成为降低交付标准的借口。相反,真正的竞争力在于,同时提高生产力与质量

围绕这一判断,他给出了具体的实践方向:将 Agent 用于客服、风控、内容生成、数据分析等场景,让系统承担重复性工作,把人的时间留给真正影响产品和业务走向的决策。随着系统从“被接受、被修改、被拒绝”的反馈中不断学习,质量门槛本身也会随时间抬升。

最终,他将 Agent 的意义概括为一句话:消除创意与现实之间的壁垒

在这场分享的结尾,Rauch 并未给出下一步该学什么工具的清单,而是抛出了一个更本质的问题:当工具已经就位、模型已经成熟,你真正要思考的,是你准备交付什么样的产品、什么样的价值

AI 时代的开发者体验,不再只是写更少的代码,而是能否以更高的标准,把想法真正带到现实世界中。

前言

在鸿蒙应用的开发过程中,状态管理一直是我们绕不开的话题。如果你是从 API 9 或 API 10 一路走来的老兵,一定经历过被 @Observed@ObjectLink 支配的恐惧。那时候,我们想要监听一个嵌套在对象深处的属性变化,简直就是一场噩梦。

假设你有一个 User 对象,里面包含一个 Address 对象,当你试图修改 user.address.city 时,你会发现界面纹丝不动。为了解决这个问题,我们被迫把 Address 拆分成一个独立的子组件,或者暴力地重新赋值整个 Address 对象来触发更新。这种为了技术限制而通过增加组件层级来妥协的做法,不仅让代码变得臃肿,更带来了不必要的性能开销。

在 HarmonyOS 6 (API 20) 中,ArkUI 团队终于为我们带来了状态管理的 V2 版本,其中 @ObservedV2@Trace 的出现,彻底粉碎了嵌套对象监听的痛点,让我们终于可以像写原生 JS 一样自然地操作数据了。

一、 告别 V1 时代的“洋葱式”更新

在深入 V2 之前,我们有必要回顾一下 V1 版本状态管理的局限性,这样你才能深刻体会到新特性的甜头。在 V1 中,状态管理的粒度通常停留在 对象引用 级别。这意味着,框架只关心这个对象是不是原来那个对象,或者这个对象的一级属性有没有变。一旦数据结构变得立体,比如数组里套对象,对象里又套对象,框架的感知能力就会断崖式下跌。

为了让 UI 响应深层数据的变化,我们过去不得不构建一种 洋葱式 的组件结构。父组件持有 User,子组件持有 Address,孙子组件持有 Street。每一层都必须严格使用 @ObjectLink 进行传递。

这导致了一个后果:哪怕是一个简单的表单页,可能都需要拆分成七八个细碎的自定义组件。这不仅增加了代码的复杂度,还让组件之间的通信变得异常繁琐。而如果我们偷懒不拆组件,就只能通过 this.user.address = new Address(...) 这种“换血”的方式来强制刷新,这无疑是在用大炮打蚊子,性能损耗极大。

二、 @ObservedV2 与 @Trace 的精准打击

HarmonyOS 6 引入的 @ObservedV2@Trace,采用了全新的代理(Proxy)机制,将监听的粒度精确到了 属性 级别。这就像是给每一个需要关注的数据字段都安装了一个微型的传感器,无论它被嵌套得有多深,只要数值发生变化,传感器就会立即向 UI 发送更新信号。

使用这套新机制非常直观。首先,我们需要用 @ObservedV2 类装饰器来标记一个类,告诉框架:这个类产生的实例是需要被深度观察的。接着,对于类中那些会影响 UI 显示的核心属性,我们给它们加上 @Trace 装饰器。

注意,这里有一个巨大的思维转变。我们不再需要把所有属性都变成状态,只有那些真正和界面绑定、变化时需要触发重绘的属性,才需要加 @Trace。这种按需监听的设计,从根源上减少了不必要的渲染消耗。

我们可以看看下面这段定义代码,它展示了如何构建一个可深度监听的数据模型.

// 定义一个深层嵌套的设置类
@ObservedV2
class Settings {
  @Trace theme: string = 'Light';
  @Trace fontSize: number = 14;

  constructor(theme: string, fontSize: number) {
    this.theme = theme;
    this.fontSize = fontSize;
  }
}

// 定义用户类,嵌套了 Settings 类
@ObservedV2
class User {
  @Trace name: string;
  @Trace age: number;
  // 嵌套的复杂对象,只要 Settings 类被正确装饰,这里无需特殊处理
  @Trace settings: Settings; 

  constructor(name: string, age: number, settings: Settings) {
    this.name = name;
    this.age = age;
    this.settings = settings;
  }
}

在上面的代码中,不管是 User 还是嵌套在内部的 Settings,都被标记为了 V2 的观察对象。

当你在组件中直接执行 this.user.settings.theme = 'Dark' 时,ArkUI 能够精准地捕获到这个深层属性的变化,并只更新依赖了 theme 属性的那一部分 UI,而不会导致整个 User 卡片甚至整个页面的重绘。

三、 数组与集合的深度监听

除了对象嵌套,数组操作也是 V1 版本的一大痛点。以前我们必须使用 ArkUI 提供的特定数组方法,或者把数组项封装成 @ObjectLink 组件才能监听到增删改查。而在 V2 中,@Trace 同样适用于数组属性。

当你将一个数组标记为 @Trace 后,框架会自动代理这个数组的 push、pop、splice 等变更方法。更令人兴奋的是,如果数组中的元素本身也是 @ObservedV2 装饰过的对象实例,那么修改数组中某一个元素的属性(例如 this.users[0].name = 'New Name'),也能直接触发 UI 更新。

这种 数组结构变化元素内部变化 的双重监听能力,让列表类数据的处理变得异常丝滑。我们不再需要为了更新列表里的一行文字而被迫刷新整个列表数据。

四、 最佳实践与注意事项

虽然 V2 极其强大,但在使用时也有一些规则需要遵守。首先,@ObservedV2 只能装饰 class,不能用于接口或简单对象。其次,V2 的状态变量通常配合 @Local(组件内部状态)或 @Param(组件参数)在 UI 组件中使用,这替代了 V1 中的 @State@Prop

在使用中我们要养成 精细化控制 的习惯。不要习惯性地给类里的所有属性都加上 @Trace,只给那些 UI 真正用到的属性加。比如一个用于内部逻辑计算的临时 ID 或者缓存数据,就不应该加 @Trace,这样可以减轻框架的代理负担。此外,V2 的状态追踪是基于实例的,如果你直接替换了整个对象实例,那么新实例必须也是由 @ObservedV2 装饰的类创建的,否则监听链条就会断裂。

下面是一个完整的实战案例,模拟了一个“智能家居控制面板”的场景。在这个场景中,我们有一个家庭对象,里面包含多个房间,每个房间又有独立的设备。通过 V2 的深度监听,我们可以直接在父组件修改最深层的设备状态,观察 UI 是如何丝滑响应的。

import { promptAction } from '@kit.ArkUI';

// =========================================================
// 1. 数据模型定义
// =========================================================

@ObservedV2
class SmartDevice {
  @Trace name: string;
  @Trace isOn: boolean;
  @Trace powerConsumption: number;

  constructor(name: string, isOn: boolean, power: number) {
    this.name = name;
    this.isOn = isOn;
    this.powerConsumption = power;
  }
}

@ObservedV2
class Room {
  @Trace name: string;
  @Trace devices: SmartDevice[] = [];

  constructor(name: string, devices: SmartDevice[]) {
    this.name = name;
    this.devices = devices;
  }
}

@ObservedV2
class SmartHome {
  @Trace familyName: string;
  @Trace rooms: Room[] = [];

  constructor(familyName: string) {
    this.familyName = familyName;
  }
}

// =========================================================
// 2. 主界面组件
// =========================================================

@Entry
@ComponentV2 
struct DeepObservationPage {

  @Local myHome: SmartHome = new SmartHome('鸿蒙未来家');

  aboutToAppear(): void {
    const livingRoom = new Room('客厅', [
      new SmartDevice('主灯', true, 50),
      new SmartDevice('空调', false, 1200),
      new SmartDevice('电视', false, 200)
    ]);

    const bedroom = new Room('主卧', [
      new SmartDevice('床头灯', false, 10),
      new SmartDevice('空气净化器', true, 45)
    ]);

    this.myHome.rooms.push(livingRoom, bedroom);
  }

  build() {
    Column() {
      // 1. 顶部标题
      Text(`${this.myHome.familyName} 控制中心`)
        .fontSize(24)
        .fontWeight(FontWeight.Bold)
        .margin({ top: 40, bottom: 20 })

      // 2. 设备列表区域
      List({ space: 16 }) {
        ForEach(this.myHome.rooms, (room: Room) => {
          ListItem() {
            Column() {
              Text(room.name)
                .fontSize(18)
                .fontWeight(FontWeight.Bold)
                .width('100%')
                .padding({ left: 12, bottom: 12, top: 4 })
                .border({ width: { bottom: 1 }, color: '#F0F0F0' })

              ForEach(room.devices, (device: SmartDevice) => {
                Row() {
                  Column() {
                    Text(device.name)
                      .fontSize(16)
                      .fontWeight(FontWeight.Medium)
                      .fontColor('#333')

                    Text(`能耗: ${device.powerConsumption}W`)
                      .fontSize(12)
                      .fontColor('#999')
                      .margin({ top: 4 })
                  }
                  .alignItems(HorizontalAlign.Start)

                  // 开关控制
                  Toggle({ type: ToggleType.Switch, isOn: device.isOn })
                    .onChange((value: boolean) => {
                      // V2 深度监听核心:直接修改属性,UI 自动刷新
                      device.isOn = value;
                    })
                }
                .width('100%')
                .justifyContent(FlexAlign.SpaceBetween)
                .padding(12)
                .backgroundColor(device.isOn ? '#F0F9FF' : '#FFFFFF')
                .borderRadius(8)
                .animation({ duration: 300 })
              })
            }
            .padding(12)
            .backgroundColor(Color.White)
            .borderRadius(16)
            .shadow({ radius: 8, color: '#0D000000', offsetY: 2 })
          }
        })
      }
      .layoutWeight(1)
      .padding({ left: 16, right: 16 })
      .scrollBar(BarState.Off)

      // 3. 底部按钮
      Button('一键关闭所有设备')
        .width('90%')
        .height(48)
        .backgroundColor('#FF4040')
        .shadow({ radius: 10, color: '#4DFF4040', offsetY: 5 })
        .margin({ bottom: 20, top: 10 })
        .onClick(() => {
          let turnOffCount = 0;
          this.myHome.rooms.forEach(room => {
            room.devices.forEach(device => {
              if (device.isOn) {
                device.isOn = false;
                turnOffCount++;
              }
            });
          });
          promptAction.showToast({
            message: turnOffCount > 0 ? `已关闭 ${turnOffCount} 个设备` : '所有设备已关闭'
          });
        })
    }
    .width('100%')
    .height('100%')
    .backgroundColor('#F1F3F5')
  }
}

五、 总结

从 V1 到 V2,鸿蒙的状态管理机制完成了一次从 粗放精准 的进化。@ObservedV2@Trace 的组合,让我们彻底摆脱了为了做数据监听而扭曲组件结构的尴尬境地。

现在,我们可以按照最符合业务逻辑的方式去设计数据模型,无论嵌套多少层,无论数据结构多么复杂,ArkUI 都能像手术刀一样精准地定位到变化点并更新视图。这对于构建大型、复杂交互的鸿蒙应用来说,是必须要掌握的核心能力。

在构建金融交易系统时,我们常说“天下武功,唯快不破”。但在外汇交易的实战开发中,很多开发者往往卡在了第一步:如何优雅且高效地获取实时数据?

前阵子我在优化一个即时汇率换算模块,目标是同时监听 USD/JPY 和 EUR/USD 的波动。需求很明确:低延迟、低资源占用、高稳定性。

传统的 requests.get() 轮询方案在这里是行不通的。每一次 HTTP 请求都要经历三次握手、传输、断开,这种开销对于高频变化的行情数据来说是巨大的浪费。而且,你很难控制轮询的频率——太快了服务器当你是 DDoS,太慢了又捕捉不到瞬间的插针行情。

解决这个问题的标准答案就是 WebSocket。它允许建立一次连接后保持双向通信,服务器有新价格直接推送到客户端。我在对比了几个 API 文档后,选择了 AllTick API 作为演示对象,主要是看重它在断线重连和数据包结构的简洁性上做得比较符合开发直觉。

首先,摒弃复杂的框架,回归最基础的 websocket-client。

pip install websocket-client requests

接下来的核心代码涉及三个回调函数:on_open(建立连接时订阅)、on_message(接收数据)、on_error(错误处理)。

import websocket
import json

def on_message(ws, message):
    data = json.loads(message)
    print(f"{data['symbol']} | {data['price']} | {data['time']}")

def on_open(ws):
    subscribe_msg = {
        "action": "subscribe",
        "symbols": ["EURUSD", "USDJPY"]
    }
    ws.send(json.dumps(subscribe_msg))

ws = websocket.WebSocketApp(
    "wss://api.alltick.co/forex/realtime",
    on_open=on_open,
    on_message=on_message
)

ws.run_forever()

当你订阅了多个货币对时,数据流的压力会变大。

import csv
from datetime import datetime

def save_tick(data):
    with open("forex_tick.csv", "a", newline="") as f:
        writer = csv.writer(f)
        writer.writerow([
            datetime.now(),
            data["symbol"],
            data["price"]
        ])


在处理这些并发数据时,我的经验是:千万不要在 on_message 里做耗时的计算逻辑。先把数据塞进队列(Queue)或者存下来,计算逻辑另起线程处理,否则会阻塞心跳,导致连接断开。

subscribe_msg = {
    "action": "subscribe",
    "symbols": ["EURUSD", "USDJPY", "GBPUSD", "AUDUSD"]
}

从 HTTP 转向 WebSocket,本质上是思维方式从“主动查询”到“事件驱动”的转变。如果你手头也有类似的监控需求,不妨试试上面的代码。你会发现,当数据流实时涌入控制台的那一刻,整个系统的“手感”完全不同了。

本文介绍我对 Clawdbot / Moltbot AI 个人助手的尝鲜使用。有蹭热度嫌疑,喜干货者慎入 :)

最近大热的 Clawdbot(现改名为 Moltbot) 是一个人 AI 助手,主打个人 Self-Hosted 的 ai agent。可运行在您自己的设备上的 AI 助手。不管你在哪里,均可以通过国际上常用的 IM 聊天平台(WhatsApp/Telegram/Matrix 等等,但不包括 WeChat)通过聊天与 ai agent 进行互动。

Just another chatbot ?

如果你硬要我说点非市场炒作的人话,不要老打鸡血天天震撼和炸裂,回归朴素码农实用主义的话。那么问题的核心是:这所谓的 “新” 玩意,和之前的支持本地部署的,做点 hack 也可以互联网访问的 lobehub / librechat 甚至更久远的 open-webui 这类已经支持 MCP 工具 的 LLM chat UI 有什么区别?

说实话,在我短短数小时的安装和使用时间里,我只能告诉大家一些基本概念和功能上的不同,也因了解时间有限,说得不对请纠正:

  • 任务长期化、异步化。不再是一个聊天请求触发,然后在线等待响应的工作流程。
  • 多任务并行化
  • IM 聊天平台 作为主交换方式。 这大大简化了部署和远程使用,只需要一个 IM 聊天平台的接入即可。对大众用户比要 Port Mapping 或 Tailscale 才能使用的门槛要低很多。异步任务的通知推送问题,多模态图像声音的输入输出问题,接入的便利性问题,一个方案同时解决了。
  • 支持 Skills 等已经深入民心的 AI 定制设计模式。只要本地命令行能做的,Moltbot 也能做。

看完这些,你大概会联想起 ManusOpenManus

安装

网上已经非常多安装手把手教程了。所以我不打算写教程了,这里只说说我使用的一些配置:

综合考虑到网络环境的难和付款的便利,我选择了 openrouter 以及 anthropic/claude-sonnet-4.5 模型 。

配置文档:

https://docs.molt.bot/providers/openrouter

配置示例:

{
  env: { OPENROUTER_API_KEY: "sk-or-..." },
  agents: {
    defaults: {
      model: { primary: "openrouter/anthropic/claude-sonnet-4.5" }
    }
  }
}

注意,直接用 CN 的 source ip 是访问不了 openrouter 的 claude-sonnet-4.5 的,会 http status 403 : This model is not available in your region

是有点贵,不过先试试再找平替吧。

简单试用

image.png

这里只是简单试用一下 AI 助手对工具的智能调用能力。还不错。不过 UI 设计还是有待改进的。很工程师风的界面用户体验。不过这界面叫 Dashboard ,这个风格也说得过去吧。

计划

计划后面试试接入适合国情的 Matrix IM ,看看效果。例如,我收到 Prometheus 报警 Homelab 问题时,可以让 Moltbot 自动分析原因和自动修复。也可以接入语音 TTS/STT ,甚至图像识别等等。有进度也会分享分享。再见。

2026 年 1 月,在操作智能领域权威评测体系 OSWorld 发布的最新榜单中,九章云极 DataCanvas 凭借在 Alaya NeW Cloud 强化学习平台上训练的 DART-GUI-7B 模型,以卓越的智能操控表现,一举夺得 OSWorld 7B 赛道冠军!

九章云极:Alaya NeW Cloud 强化学习平台

Alaya NeW Cloud 是由九章云极打造的以强化学习( Reinforcement Learning, RL )为核心能力的智算云平台,该平台通过将强化学习能力深度融入底层基础设施,重构了智能计算的架构与逻辑,旨在为企业和开发者提供“可用、好用、经济”的算力资源。

Alaya NeW Cloud 打造前沿强化学习云平台,平台原生支持一键式 Agentic RL 开发环境启动 、分布式极核 Agentic RL 训练,性能上实现训推分离与全流程加速,生态上预置多种主流 Agent 仿真环境,高效支撑强化学习技术的快速落地与创新突破,精准解决 AI 技术应用中的效率和成本等核心问题。目前,九章云极已在全球布局多个聚焦于加速计算优化的 AIDC 智算中心,持续赋能 AI 技术的高效应用与行业规模化落地。

DataCanvas Alaya NeW Cloud

核心技术解读:轻量化模型的 GUI 智能体突破

什么是 OSWorld?

OSWorld 是目前 AI 领域衡量 “智能体( Agent )跨软件操作电脑” 能力最顶尖的基准测试,它模拟真实的操作系统环境,要求 AI 像人类一样通过视觉观察屏幕,并精准操控浏览器、Excel 、VS Code 等各类桌面应用来完成跨平台的复杂任务,被 OpenAI 、Anthropic 、字节跳动 Seed 、月之暗面、智谱等顶尖 AI 团队广泛采用,更是检验 AI 能否从“只会聊天”进化为“高效数字员工”的硬核试金石。

为什么 OSWorld 对 7B 模型几乎是“地狱难度”?

  • 真实生态:任务在 VS Code 、LibreOffice 等真实软件中运行,环境信息密度远超结构化数据

  • 闭环操控:需要连续理解截图、规划路径和进行键鼠操作,考验长程推理能力

  • 零容错率:限时 30 步,操作需步步为营,失败不可逆转

  • 数据稀疏:基础成功率不足 1/4,即使是大模型也面临严峻挑战

复杂的跨软件协作与精细的坐标控制,使得参数规模有限的 7B 模型在“理解”与“执行”之间难以调和,长期处于“不可用”状态。

核心技术路径:九章云极三大创新赋能轻量化突破

1. 核心方法:解耦式 GUI 智能体强化学习框架

九章云极并未通过简单扩大模型规模取胜,而是选择了系统级的算法创新。提出了 DART( Decoupled Agentic Reinforcement Training ),首次将 GUI 智能体的强化学习训练流程彻底解耦为四个异步模块:

三项关键突破

  • 推演级轨迹调度( Rollout-Level Scheduling ):

以“单条轨迹”作为调度最小单位;

每个 rollout 完成后立即释放环境并启动下一个任务;

环境利用率提升从 12.2% 达到 67.7%,提升幅度高达 5.5 倍。

  • 动态模型服务池( Dynamic Model Serving Pool ):

采用 GPU 推演的集中化管理,支持多模型版本的热加载;

避免了传统“一卡一环境”的资源浪费;

GPU 推演利用率提升 1.6 倍

GPU 资源的并发弹性扩展能力。

  • 训练与推理异步执行( Asynchronous Execution of Training and Inference ):

训练与推演实现异步解耦;

避免模型更新导致服务阻塞。

2. 数据策略:四层自适应筛选,放大稀疏成功信号

针对 GUI 强化学习中的“成功少、噪声多”核心难题,DART 设计了覆盖任务、轨迹、步骤和 Token 的四层筛选机制:

这一机制使得 7B 模型,在最大 30 步内,即可稳定的实现 OSWorld 中的任务要求。

3. 多维优化:以轻量化参数对冲复杂场景,重塑性能边界

九章云极经过强化学习训练的 7B 模型之所以能实现突破,关键在于采用了“场景适配、精度优化、算力协同”的三维技术方案,在控制参数量的同时,最大化提升操作智能性能:

  • 场景化指令对齐技术:基于百万级真实操作场景数据训练,构建细分领域的指令库,优化模型对办公自动化、数据处理等高频场景的语义理解能力,精准捕捉模糊指令背后的核心需求,使指令理解准确率较通用模型提升 23 %,并减少无效操作;

  • 混合精度推理优化:借鉴智算硬件优化经验,对模型不同模块进行精度分层处理。核心推理模块保留 FP16 精度以确保准确性,非核心模块量化至 INT8 精度。这一调度方式实现推理效率提升 1.8 倍,资源占用率降低 40 %

  • 软硬件协同调度机制:依托自研的智算技术栈优势,深度协同模型推理与算力资源,动态调整算力分配策略以应对负载波动,避免资源闲置。同时使用专用推理加速引擎优化 GUI 元素识别与动作规划的计算链路,进一步降低轻量化模型的推理延迟。

实验结果:全类型任务下性能优势显著

在最大步长仅有 30 步的情况下,DART-GUI-7B 在多种任务类型上表现出显著优势,包括:

  • 浏览器类( Chrome );

  • 图像/设计类( GIMP );

  • 邮件客户端类( Thunderbird );

  • 代码/ IDE 类( VS Code );

  • 操作系统交互类( OS )。

亮点:GIMP 类任务的正确率高达 80.77 %,且在办公套件( Impress、Writer、Calc )、媒体播放类( VLC )以及多应用协同等任务中,其能力也有显著提升。

九章云极还进行了真实场景的验证。在 DataCanvas Alaya NeW 平台上,DART-GUI-7B 成功地通过键鼠操作完成文档查找、导航到指定页面及查找官网联系方式等场景任务,其成功率超过 90 %

产业价值与未来展望

目前,AI 大模型正加速从“技术验证”向“产业落地”转变。通用人工智能作为连接数字世界与物理操作的重要工具,在办公自动化、智能运维和工业控制等领域展现出广阔的应用前景。然而,模型部署成本高、轻量化模型性能不足及数据出域安全等问题,仍然是产业规模化的关键瓶颈。

九章云极的 7B GUI 模型突破为行业提供了“低成本、高性能”的通用人工智能解决方案,有望推动通用人工智能在中小企业及长尾场景的普及。

Vibe Coding 的进化速度,可能还是超乎了我们的想象。

今天,我们在测试 Kimi K2.5 的网页生成功能时,旁边的前端开发同事还以为是真实的网页场景,低声问我:“你这是在写代码吗,还是在摸鱼打游戏?”

直到我说出这是 AI 生成的,而且是只用了几句话就做出来的效果,这让她大为惊讶。

该网页长这样,现在如果不明说的话,确实已经难辨“真假”。

Kimi K2.5 在今天刚刚上新,它没有把重点放在“单项能力突破”上,而是试图把视觉理解、代码生成、交互设计,以及多 Agent 协作,都压进了同一个模型里,一口气提供了四种使用模式。

在笔者看来,其中最有意思的,当属 Agent 集群模式——这也是在国内 AI 上第一次出现的功能,它可以让原本耗时数天的工作,现在仅需十几分钟就能做完,简直是指数级的提效。

比如,要做 100 家公司的市场调研,它能指挥一群不同行业背景的“分析师”分头行动,十几分钟出结果,而不是几个星期;面对 300 页的复杂翻译项目,它能动员一个“语言学专家”团队,快速、准确地完成交付。

四种模式具体如下。不同需求的用户,从随手一问,到需要并行推进的复杂任务,都能找到明确的入口:

  • 快速模式,提供最快的响应体验。

  • 思考模式,可以用来解答复杂问题。

  • Agent 模式,擅长深度研究、PPT、Excel、Word、PDF 和网页生成等任务——目前 K2.5 已经开始掌握 Office 套件的核心技能,其协助办公的能力不容小觑。

  • 重磅全新模式:Agent 集群模式,适合需要并行处理的复杂任务

另外,新编程产品 Kimi Code不仅能直接在终端里运行,还能无缝集成到 VSCode、Cursor、Zed 这些 IDE 里,支持直接输入图片和视频。

月之暗面 CEO 杨植麟,这次亲自为新模型发布录制了视频。

Kimi K2.5 实测

看起来很强是一回事,那用起来是不是另一回事?以下是各种实操案例,InfoQ 也上手测了几组。

几分钟搓出前端网页,能修改细节、还能有声音

为了测试 Kimi K2.5 的视觉理解能力和 Vibe Coding 水平,我们首先直接甩出一张产品页面截图,再配上几句文字描述,看看它能不能自己看懂、自己理解,顺手还能复刻出一个像模像样的产品页面。

比如让 K2.5 做个一个最近很火的心灵疗愈类项目,给的 Prompt 如下:

模仿情绪疗愈类产品,生成一个情绪记录类 APP,适合年轻人释放情绪,让人一眼觉这里允许脆弱的地方。

可以说,这个 Prompt 提示不多,要求不少,对模型视觉理解能力、逻辑思维、产品思维以及设计审美能力都是考验。

从结果看,K2.5 对“情绪”这个概念本身是有一定理解和思考的。它生成的是一个以沉浸体验为核心的情绪页面,而不是常规的情绪记录工具。

视觉上,明显没走浅色卡片流那条老路,而是用了低对比背景、连续画面和节奏型动效(类似呼吸或旋涡),交互重点放在“停留”和“进入状态”上。

在功能组织上,输入、反馈和过渡是连在一起的:用户不是“点一个按钮开始记录”,而是被自然引导进入输入状态——这种设计说明它在生成时已经考虑了状态流转,而不是只输出一个静态页面。

接下来,我们不再给任何视觉参考,只输入文字提示,让 K2.5 独立完成整个网页设计

我们给的 Prompt 很简单:

做一个类似 4399 的小游戏平台,要有完整的游戏分类频道; 但视觉审美要大厂级、高端网游风,整体要酷炫、有冲击力,并且可交互。

结果 Kimi K2.5 没让人失望。

它给出的页面并不是“看起来像网页”的静态效果,而是已经具备明确产品结构的原型。相比以往很多生成结果只停留在大色块 + 随机模块的拼接,它能正确理解“小游戏平台”这一产品类型,在首页层面同时给出清晰的分类入口、内容推荐区和主视觉焦点。

视觉风格上,它没有沿用早期生成工具常见的“低饱和扁平模板”,而是接近成熟网游官网或内容平台的布局逻辑,这一点与一些真实产品如大型游戏平台的信息层级更为接近。

更关键的是,这种效果并非通过多轮细化 Prompt 得到,而是在一次相对抽象的指令下完成,说明模型已经开始具备从“需求描述”直接映射到“产品级页面结构”的能力,而不只是做样式渲染。

类似的例子还有不少。下面这些网页,都是 K2.5 在图像生成工具的辅助下,仅凭一条 Prompt直接生成的完整原型。

除了做整个页面,我们还单独测评了一下 K2.5 对动效的理解能力。

左侧是我们输入的一段小视频,右侧是它生成的效果。结果 K2.5 几乎是完整复刻,拖动鼠标,图片会随之产生位移变化,逻辑和节奏都对得上,动效也足够丝滑。

飞书文档 - 图片

也就是说,K2.5 并不是在“画动效”,而是真的理解了交互在时间维度上的设计意图。

对开发和设计而言,这意味着动效不再从一堆参数和曲线开始,而是可以先把想法直接跑成一个可交互的原型,用几分钟看清值不值得投入工程成本。

以前要干好几天的活,十几分钟就能搞定

至于 K2.5 的 Agent 集群模式,最直观的能力就是:把时间尺度直接拉短了。过去需要“按天算”的复杂任务,现在往往 十几分钟就能跑完一整轮。

来看一个实测例子。

一次性向 Kimi 的 Agent 集群投喂了 40 篇论文,主题横跨心理学与 AI。任务是,在此基础上产出一份系统性的研究综述。

Kimi 的处理流程大致分成了三步:第一步,完整通读。主 agent 多次调用工具,按顺序把 40 篇论文逐篇过了一遍,确保所有关键信息都被纳入同一上下文,而不是零散记忆。

第二步,并行写作。在理解整体结构后,Kimi 自动派生出多个子 agent——可以理解为它的“分身”,分别负责不同章节的撰写,各自并行推进。

第三步,统一收敛。主 agent 最后回到台前,负责校对、取舍和整合,把各个子 agent 的成果汇总成一份长达几十页的专业 PDF 级综述。

整个过程里中,几乎看不到人工干预。

##当 Transformer 开始吃力,K3 可能用上原创架构 KDA

我们先后测评了一整天,总体感受很明确:

Kimi K2.5 在自己擅长的多个方向上,已经跑得相当顺了。比如网页设计生成、动效理解、多 Agent 协作等场景,完成度和稳定性都比较成熟;不过也有短板,比如在 3D 建模这类强几何约束的任务上,表现还欠佳。

当这些能力被一项项跑出来之后,更现实的问题也浮现出来:如果这些复杂推理真的要被当成日常能力反复调用,底层的计算方式还能不能长期扛得住?

月之暗面给出的一个解法,是 Kimi Linear,而 Kimi Linear 中的一个核心创新点,是一个新的实验性架构:KDA(Kimi Delta Attention),一种线性注意力模块的相关思路。

杨植麟此前在 Reddit 上的 AMA(Ask Me Anything)等公开交流中已经透露,下一代 K3 模型,可能会使用月之暗面的这个新架构 KDA。

要讲清楚 KDA 的优势,我们还得先从 Transformer 架构说起。

本质上,Transformer 的注意力机制是全连接的:每个 token 都要和上下文里的其他 token 打一次交道。结果,输入一长,计算量就按平方增长(O(N²));生成新 token 时,还要不断回查之前的 KV Cache。

当上下文一拉长,显存压力迅速飙升,尤其是在 128K 以上的场景里,几乎是“显卡先崩,钱包随后”。

——而且模型越强,这个问题就越明显。

也正因为如此,过去几年里,线性注意力一直是业内反复被拿出来讨论的一条路:把注意力计算从 O(N²) 压到 O(N),让模型跑得更快、也更省。

但现实是,早期不少线性注意力方案确实快了,却很难兼顾记忆能力:信息留不住,推理质量也跟着打折。

而 KDA 核心思想可以概括为一句话:不再每次都“全量算一遍注意力”,而是每次只计算“状态 + 增量(Delta)更新”。

这里的 Delta(增量) 是关键。它在数学上保证了稳定性,即使是在百万级 token 序列中,梯度也不会爆炸或消失。这也让 Kimi Linear 能在超长上下文中跑得稳。

在保持模型能力的同时,还可以显著降低长上下文和连续推理的计算成本——思路有点像 MoE 架构。

##One more thing

在测试 Kimi K2.5 的视觉理解能力时,我们索性出了一道“狠题”。

——甩过去一段动画,让它先吃透画风和叙事方式,再换个主题,重写一支动画脚本。说实话,这活儿对专业动画师都不轻松,我们还特意把 “Agent 集群”模式打开了。

结果最有意思的不是生成内容本身,而是页面最底下那行小字:

“这个任务 Kimi 自己就能完成,不需要 Agent 集群。部分额度已退回。”

体验传送门:https://www.kimi.com/