标签 AI大模型 下的文章

不要侥幸,35 岁以上的程序员不好找工作, 这是一个既定事实

首先无论是什么渠道, 对于普通人来说 35+ 的程序员, 不好就业, 就是一个既定事实。 甚至都不一定与自己的工作经历、学历 有多大的关系。

甚至我知道很多 35+ 的老哥们, 经验丰富, 985 大学毕业, 依然不好找工作, 这个不是个例。

我们不过多探究为何 35+ 的程序员不好就业, 我们可能需要更多关注, 怎么在这种大背景下「绝地求生」

这些方向可以让 35+ 程序员依然抢手

“35 岁危机”并非绝对,大量 35 岁以上的程序员仍能保持职业竞争力,甚至更受青睐,核心在于是否具备“不可替代性”:


技术深度型:在某一细分领域(如底层架构、算法优化、安全攻防)有深耕,成为行业公认的技术专家。例如,专注于分布式系统设计、AI 大模型工程化的资深工程师,35 岁后反而因经验稀缺而抢手。


业务融合型:熟悉特定行业(如金融、医疗、制造业)的业务逻辑,能将技术与行业需求深度结合。例如,懂银行业务的支付系统架构师、懂医疗流程的医疗信息化专家,年龄增长带来的业务经验反而成为优势。


管理转型型:从技术岗转型为技术管理(如 CTO、技术总监、团队负责人),具备带团队、做决策、对接业务的能力。这类岗位更看重“经验沉淀”和“资源整合能力”,35-45 岁往往是黄金期。


技术管理型 - 有坑

首先看看「管理型」, 我感觉上面三个「绝地求生」方向, 管理方向, 反而是最不考虑的, 其实很简单, 现在大社会都是紧缩模式,只有出局的业务,没有新业务开展了。 那么这个时候, 就出现一个更加严重的问题, 「技术管理系」岗位, 一个萝卜一个坑, 甚至可以说, 你无论技术有多牛逼, 但是没有那个坑位, 可能永远都上不去。

甚至还有一个比较搞笑的现象,都是很多中小公司离开一线很久的技术 leader , 找不到坑位了, 再想着来投递技术岗, 技术上基本上生疏很久了, 基本上很难再就业。 这种人真不在少数。

深耕技术性 - 有利有弊

这个其实是一个非常好的方向, 但是这种人往往都是大头兵, 或者叫做高级工具人。 首先需要花非常多的时间和精力去做深耕技术, 要时刻保持最前沿的技术储备, 最充沛的精力, 最丰富的热情。然后要去干最累的活儿, 干最难的事儿, 但是不一定有好结果。 很简单, 这个业务线没了, 那也只能去找下一份工作。 而且大头兵, 很容易为业务背锅。

都是高级打工仔了, 做的好, 是应该的, 做的不好就得背锅。

而且还要想办法跟 AI 做差异性竞争。 很简单, 做了一个非常好的工作架构, 然后 AI 可以用非常低的成本做替代, 那就白干了。

上面说了那么多缺点, 这个方向就真的那么不堪吗?其实也不是, 只要努力, 肯吃苦, 至少下限还是很高的。 因为这个路子, 就跟上大学一样,你只要一直读书, 肯吃苦, 就能上到 博士 。 做深耕技术也是一样的, 只要肯努力, 耐得住寂寞, 一直死磕下去, 基本上在一个方向都能有几刷子的。 对于迷茫型和努力型同学,这个也是最佳直选。

所以有利有弊, 各位同学可自行斟酌。

业务融合型 - 性价比之王

技术的价值最终要落地到业务中,30 + 程序员若能将技术能力与具体行业的业务逻辑深度绑定,会比 “纯技术专家” 更难被替代 —— 因为年轻人可以快速学会技术,但吃透一个行业的业务规则(如金融风控逻辑、医疗流程规范、制造业供应链协同)往往需要 5 年以上的沉淀。

这个才是我真正想跟大家聊一聊的方向。

机-会

技术大厂,前端-后端-测试,全国均有机-会,感兴趣可以试试。待遇和稳定性都还不错~

精通技术的业务专家成长之路

“技术 + 业务” 复合岗,核心是 让技术能力成为 “解读业务、解决业务痛点” 的工具,而非终点。

这种转型的价值在于:业务逻辑的沉淀周期长(5-10 年),年轻人可快速学会技术,但难以短期吃透行业规则,这正是 30 + 程序员的经验红利。以下从 “有价值的业务方向”“业务理解训练方法”“避坑要点” 三个维度展开,附具体实操步骤:

一、值得深耕的“技术+业务”方向(附核心业务逻辑与技术结合点)

选择业务方向的关键标准:业务逻辑复杂(有门槛)、监管严格(需经验规避风险)、技术与业务深度绑定(技术优化能直接带来业务收益)。以下是几个高价值领域:

  1. 金融科技(银行/保险/证券)

核心业务逻辑:金融行业的本质是“风险定价+资金流转”,涉及复杂的监管规则(如央行反洗钱、银保监会合规要求)、用户分层(高净值客户vs大众客户)、业务流程(信贷审批、理赔核保、交易清算)。
技术结合点:


信贷领域:用AI模型优化风控(需理解“逾期率”“不良率”等业务指标,以及征信数据、行为数据如何影响授信);


交易领域:低延迟交易系统(需理解股票/期货的“撮合规则”“涨跌停限制”,技术优化直接影响交易成功率);


保险领域:智能核保系统(需理解“健康告知”“免责条款”等业务规则,技术需实现“用户输入→规则匹配→核保结论”的自动化)。

为什么值得做:金融监管政策每年更新(如2025年央行新规对“消费贷资金用途监控”的要求),技术方案必须跟着业务规则调整,经验越丰富越能快速响应,年轻人易因不懂合规踩坑。


  1. 医疗健康(医院信息化/互联网医疗)

核心业务逻辑:医疗行业的核心是“患者诊疗全流程”,涉及医院内部流程(挂号、分诊、问诊、检查、缴费、取药)、医保政策(医保目录、报销比例、异地结算规则)、医疗安全(病历隐私、药品溯源)。
技术结合点:


医院信息系统(HIS):需理解“门诊/住院流程”(如门诊的“医生开单→药房发药”环节,技术需对接收费系统、药品库存系统);


互联网医疗:在线问诊平台需符合《互联网诊疗管理办法》(如“首诊不能线上”“电子处方流转规则”),技术架构要支持“医患身份核验→问诊记录留存→处方合规性校验”;


医疗大数据:医疗影像AI辅助诊断(需理解“CT/MRI影像的临床意义”,技术模型训练需结合医生诊断逻辑,而非纯数据拟合)。

为什么值得做:医疗流程标准化程度低(不同医院流程差异大),且涉及生命安全,技术方案容错率极低,需要“技术+临床经验”双重积累,30+的耐心和细致更具优势。


  1. 智能制造(工业互联网/工厂数字化)

核心业务逻辑:制造业的核心是“生产效率提升+成本控制”,涉及生产流程(订单排产、物料采购、车间加工、质量检测、物流配送)、设备管理(设备故障率、OEE设备综合效率)、供应链协同(供应商交付周期、库存周转率)。

技术结合点:


工业物联网(IIoT):设备数据采集与分析(需理解“数控机床的主轴温度、转速与产品精度的关系”,技术需将数据转化为“设备维护预警”等业务动作);


MES系统(制造执行系统):生产排产优化(需理解“订单优先级、物料齐套率、设备产能”的制约关系,技术算法要平衡“交付时效”与“生产成本”);


质量追溯系统:需理解“产品不良品的产生环节”(如焊接工艺参数异常导致的缺陷),技术需实现“生产数据→不良原因”的反向追溯。

为什么值得做:制造业数字化转型依赖“懂生产的技术人”,纯技术人员易陷入“为数字化而数字化”(比如盲目上物联网设备却不会分析数据),而有车间经验的技术人员能精准定位痛点(如某环节停机1小时损失5万元,技术优化需优先解决)。


  1. 跨境电商(平台型/品牌型)

核心业务逻辑:跨境电商的核心是“跨区域供需匹配”,涉及海外市场规则(如亚马逊的A+页面规则、TikTok Shop的物流时效要求)、跨境链路(报关、清关、海外仓配送)、本地化运营(语言、支付习惯、合规要求,如欧盟增值税VAT)。

技术结合点:

选品系统:需理解“海外市场需求”(如东南亚雨季对雨具的需求波动),技术通过爬虫+数据分析预测“潜力商品”;
跨境ERP:需对接“多国物流商API”“海关报关系统”,技术需处理“汇率换算”“多语言订单”“合规申报”等业务细节;
本地化营销工具:如TikTok直播带货的“实时翻译+弹幕互动”功能,技术需结合“海外用户互动习惯”(如欧美用户更关注产品参数,东南亚用户更关注价格)。

为什么值得做:跨境业务涉及“多国家、多规则、多链路”,技术方案需灵活适配(比如某国突然调整进口关税,系统需快速支持税率更新),经验能减少试错成本,年轻人易因不了解海外规则导致系统“水土不服”。

二、训练“业务理解能力”的5个实操步骤(从0到1建立业务思维)

技术人员常陷入“只懂代码不懂业务”的误区,核心问题是:习惯用“技术实现”倒推“业务需求”,而非从“业务目标”推导“技术价值”。以下步骤帮你系统性建立业务思维:

步骤1:从“被动接需求”到“主动问目标”——搞懂“业务为什么需要这个功能”

具体做法:每次接需求时,多问3个问题:


    “这个功能要解决用户的什么痛点?”(如“用户反馈支付失败率高”,而非只接“开发新支付渠道”);
    “这个功能的业务指标是什么?”(如“支付成功率从90%提升到99%”,而非“完成开发即可”);
    “如果这个功能上线后不达预期,备选方案是什么?”(理解业务的优先级和容错空间)。


案例:若业务方提“开发一个优惠券系统”,技术人员不应直接设计表结构,而是先问:“发优惠券是为了拉新还是促活?目标是提升客单价10%还是复购率20%?预算多少?”——这些决定了系统是否需要支持“新用户专属券”“满减叠加规则”等细节。

步骤2:画“业务流程图”——用可视化方式梳理业务环节(比写代码更重要)

工具:Figma(画流程图)、Visio(复杂流程)、甚至手绘;
核心要素:每个流程节点包含“谁(角色)→做什么(动作)→输入/输出什么(信息)→遇到异常怎么办(分支)”;
案例:画“电商退款流程”时,需明确:

    角色:用户、客服、财务、仓库;
    动作:用户发起退款→客服审核(是否符合7天无理由)→财务确认退款金额→仓库确认是否收到退货→系统打款;
    异常分支:“用户已拆封商品”是否支持退款?“仓库未收到货但用户说已寄出”如何处理?


价值:流程图能帮你发现“技术设计的盲区”(如漏考虑“退款失败后重试机制”),也能让你在和业务方沟通时“用他们的语言对话”(而非只说“接口、数据库”)。

步骤3:“泡在业务场景里”——亲身体验业务,而非只听业务方描述

具体做法:


    若做电商:自己下单、退货、咨询客服,记录每个环节的体验(如“退款到账时间长”可能是技术链路太长);
    若做医疗系统:去医院门诊“蹲点”,看医生如何开单、护士如何分诊、患者如何缴费(你会发现“医生开单时频繁切换系统”是真实痛点,技术可做集成优化);
    若做金融:假扮客户打电话给银行客服,咨询“信用卡逾期如何处理”(理解业务方常说的“催收流程”实际是怎样的)。


关键:技术人员容易“坐在办公室想当然”,而业务的真相往往藏在一线操作中。比如某团队开发“外卖骑手App”时,程序员亲自骑了3天车,才发现“高峰期导航频繁卡顿”是比“界面美观”更重要的问题。

步骤4:建立“业务知识体系”——像学技术一样系统化学习业务

方法:


    行业基础术语库:整理业务常用词(如金融的“拨备率”“LPR”,医疗的“DRG/DIP”“电子病历互联互通”),每个词注明“定义+业务意义”(如“DRG”是“按疾病诊断分组付费”,影响医院的收费和成本控制);
    监管规则清单:收集行业相关政策(如跨境电商的《跨境电子商务零售进口商品清单》,金融的《个人信息保护法》对数据采集的要求),标注“哪些规则会影响技术方案”(如数据本地化存储要求决定服务器部署位置);
    业务指标公式:搞懂核心KPI的计算逻辑(如“电商GMV=流量×转化率×客单价”,“银行不良率=不良贷款余额/总贷款余额”),理解技术优化如何影响这些指标(如“页面加载速度提升1秒→转化率提升2%→GMV增加X万元”)。


工具:用Notion或Excel整理,定期更新(如政策变动时),避免“业务术语听不懂”的尴尬。

步骤5:输出“业务-技术关联报告”——证明你能“用技术解决业务问题”

核心动作:每完成一个项目,写一份“技术方案如何支撑业务目标”的报告,包含:


    业务背景:项目要解决什么业务痛点(如“工厂因排产不合理,订单交付延迟率达15%”);
    技术方案:用了什么技术(如APS高级排产算法),为什么选这个技术(对比其他方案,该算法在“多品种小批量”场景下更优);
    业务效果:技术上线后,业务指标有何变化(如“交付延迟率从15%降至5%,每月减少违约金100万元”);
    经验沉淀:如果再遇到类似业务问题,技术方案可复用哪些部分(如“排产算法可适配其他工厂的生产模式”)。


价值:这份报告不仅是你“业务+技术”能力的证明(跳槽时可作为案例),更能倒逼你在项目中主动思考“技术的业务价值”,而非只关注“代码写得漂不漂亮”。

三、转型避坑:这3个误区会让你“既不像技术,也不像业务”


误区1:放弃技术深度,单纯“转业务”
复合岗的核心是“技术为根,业务为翼”,而非变成纯业务岗。比如做金融科技,若不懂分布式系统,就无法设计高并发的交易系统;若不懂AI,就无法优化风控模型。保留技术深度,同时叠加业务理解,才是不可替代的关键。


误区2:只学“表面业务”,不懂“业务本质”
比如做电商,知道“优惠券能促单”是表面,理解“不同面额的优惠券对不同客群(新用户vs老用户)的转化差异”才是本质;做医疗,知道“电子病历要存数据”是表面,理解“病历数据如何支持医生诊断决策”才是本质。多问“为什么”,穿透业务动作看目标。


误区3:等待“别人教业务”,而非主动获取
业务方通常很忙,不会系统性教你业务知识。要主动“找信息”:看行业报告(艾瑞、易观)、读专业书籍(如《支付战争》懂支付业务,《精益生产》懂制造流程)、加行业社群(如医疗信息化的“HIT专家网”)、甚至考行业证书(如PMP学项目管理,CFA基础懂金融)。




——转载自:晴小篆

2026 年 1 月 20 日,第十五届亚太 CDN 产业大会暨年度颁奖盛典在北京隆重举行。作为 CDN 领域极具影响力的行业盛会,大会汇聚产、学、研、用领域领袖与专家,聚焦数智新时代下内容分发网络的技术创新与产业变革。火山引擎视频云边缘产品线高级解决方案总监许思安受邀出席,发表《AI 时代下应用加速的演进》主题演讲,深度解析火山引擎边缘云核心能力、AI 大模型融合场景及 CDN 未来演进形态,凭借扎实的技术沉淀与前瞻视野引发全场关注。

从“抖音同款”到生态赋能,火山引擎边缘云的技术进阶之路

演讲开篇,许思安详细介绍了火山引擎的发展历程与平台定位。作为字节跳动旗下云原生 AI 服务平台,火山引擎早期以“抖音同款内容云技术”为核心标签,2025 年起全面升级为面向更广泛机构的技术服务提供商,这一转变既是市场需求的必然回应,也是平台能力的全面进阶。

谈及核心竞争力,许思安强调,火山引擎 CDN 商业化虽始于 2021 年,但依托字节跳动原生技术底座,构建了自主研发的边缘云平台,融合预估算理与边缘网络,实现“让云计算数据无处不在”的核心目标。目前,平台已形成涵盖 RTC、CDN SaaS、IGA 等产品的丰富矩阵:RTC 针对国内外不同场景优化技术方案,底层资源统一适配;CDN SaaS 实现多厂商能力抽象整合,达成管控配置与质量监控一体化;IGA 则从传统分发向全链路加速延伸,提供 7 层全栈加速、3-4 层加速及跨境加速等多元化解决方案,精准覆盖非缓存类加速需求。

三大场景:AI 大模型深度融合,解锁加速服务新价值

在 AI 技术爆发的背景下,火山引擎积极探索边缘云与大模型的融合路径,许思安重点分享了三大核心业务场景:

联合加速方案:传输效率与访问稳定双提升

火山引擎联合豆包大模型打造全栈加速解决方案,具备多重核心优势:兼容 SSE、SaaS 等 AI 常用协议,适配多样化业务需求;通过智能选路、精准缓存等技术优化网络传输效率;集成跨境专线加速与 Web 请求分析能力,在边缘层高效处理并发请求,既保护原点安全,又提升访问稳定性。实测数据显示,该方案可使丢包率降低 5%-10%,延时缩短 10%-30%,目前已在火山引擎官网 RTC 产品矩阵中正式上线。

veFaaS 服务:Agent 适配与安全防护双强化

针对在火山引擎 veFaaS 服务上部署 agent 的客户,平台通过玩机产品适配提供 GS SDK,优化智能购物等业务逻辑。同时,借助 ACP 请求经内网访问火山引擎 refuse 服务,既有效抵御公网攻击,为源站单向服务构建安全屏障,又显著提升访问效率,降低网络延时。

AI 应用开发部署平台:轻量化设计与开发者赋能双推进

聚焦 AI 应用落地痛点,火山引擎打造一键式开发部署平台,整合自身加速、安全防护与观测能力。平台支持模板创建、导入及本地上传等多种开发模式,集成 AI 插件生态,可一键部署代码并调用火山方舟、千川等大模型,大幅降低开发者工作量。目前已覆盖家居、安防等多个场景,为行业 AI 应用落地提供高效支撑。

三阶演进:AI 时代 CDN 加速网的未来形态

谈及 CDN 行业的发展趋势,许思安提出“优化 - 变化 - 变革”三阶演进模型,描绘 AI 时代加速网络的未来蓝图:

优化阶段:AI 驱动全链路效率升级

通过 AI 技术实现四大优化:智能调度基于用户行为与网络状态预判热点,提升缓存命中率;传输优化动态调整视频码率等策略,替代传统固化方案;智能运维构建全局决策系统,实现异常识别与故障自愈,提升容灾切换效率;安全防护从被动防御转向主动感知,形成快速响应机制。

变化阶段:从分发节点到边缘计算单元

硬件层方面,CDN 节点将升级为集计算、存储、网络安全于一体的边缘计算单元,优化 CPU、GPU 等算力配置;软件层从中心化分布向边缘协同分布式平台演进,部署容器引擎并优化节点间通讯资源;场景层面,承载内容从互联网内容拓展至 AIGC 生成数据、车联网数据等全行业低时延数据。

变革阶段:语义缓存 + 边缘推理的深度融合

许思安强调,CDN 的核心突破将是从基于内容哈希的静态缓存,升级为基于语义理解的智能缓存。这一变革将在多场景落地:AIGC 头像生成场景缓存热门提示词接口,大模型聊天机器人场景缓存常见问题响应,AI 推理 API 场景精准分配请求至边缘单元,IOT 设备场景剔除无效数据、聚合同类数据。未来,语义缓存与边缘推理的深度结合,将形成 "场景化精准处理" 的新型架构,大幅降低 AI 请求响应时间与后端算力成本。

双奖加持:行业认可火山引擎技术实力

本次大会颁奖环节,火山引擎凭借在 AI 基础设施领域的卓越技术创新、完善解决方案及行业影响力,以及在 CDN 领域的深耕细作与突出服务表现,一举斩获“AI 基础设施标杆奖”“CDN 行业先锋奖”两项重磅荣誉,充分彰显行业对其技术实力与市场价值的高度认可。

未来,火山引擎将持续深耕 AI、应用加速、CDN 等核心领域,以技术迭代与产品创新为驱动力,不断探索加速服务与行业场景的深度融合,为千行百业数字化转型提供更高效、更安全、更智能的技术支撑,助力数字经济高质量发展。

当我们向AI大模型提问,或是让它总结一份资料时,大模型之所以能精准回应,核心就在于它能从海量文本中快速“抓出”关键信息。而让大模型具备这种“文本识物”能力的基础,正是实体识别标注。

作为自然语言处理(NLP)与AI大模型训练的核心数据支撑技术,实体识别标注通过对文本中的关键元素进行精细化标注,为机器搭建起“理解文本语义、提取核心信息”的学习框架。

一、AI大模型的文本关键信息提取器

实体识别标注,是指在AI大模型训练场景下,对文本数据中的实体进行定位、分类与属性标注的过程。

这里的“实体”,通俗来说就是文本中具有特定含义的“关键元素”,是构成文本语义的核心单元,比如人名、地名、机构名、时间、数字、专业术语等。

例如,在句子“2020年,曼孚科技在杭州推出了新一代AI数据标注平台”中,“2020年”(时间实体)、“曼孚科技”(机构实体)、“杭州”(地名实体)、“新一代AI数据标注平台”(产品实体)都是需要标注的核心实体。

与普通文本标注(如文本分类、情感分析标注)不同,实体识别标注的核心目标是“精准定位+明确分类”,不仅要找到文本中的实体位置(即标注实体的起止字符),还要明确实体的类型的属性,让机器知道“这个元素是什么”。

如果把AI大模型理解文本的过程比作“整理文件”,实体识别标注就像是给文件中的关键信息贴上“分类标签”,让机器能快速抓取核心内容,而非逐字逐句“阅读”全部文本。

作为AI大模型实现文本理解、信息提取、语义交互的关键, 实体识别标注的核心价值体现在三大层面:

1、夯实语义理解基础

实体是文本语义的“锚点”,通过标注实体的类型与关系,让机器理解文本的核心逻辑。比如通过标注“曼孚科技”(机构)与“AI数据标注平台”(产品)的“推出”关系,机器能明白“曼孚科技是该产品的研发主体”。

2、提升信息提取效率

让大模型具备快速从海量文本中提取关键信息的能力,比如从10万份医疗病历中快速提取“高血压患者”“阿司匹林”“用药剂量”等实体,从千份商务合同中抓取“甲方”“乙方”“违约责任”等核心实体。

3、支撑多场景语义交互

为大模型的问答、摘要、翻译、知识图谱构建等功能提供数据支撑。比如用户问“谁在杭州推出了AI标注平台”,大模型能通过标注数据快速定位“曼孚科技”这一核心实体并给出答案。

二、从“定位分类”到“深度理解”

实体识别标注并非简单的“圈选文本+贴标签”,而是一套融合“语言学知识、行业规则、技术工具”的精细化体系。根据AI大模型的训练需求,其技术细节可分为“基础层、进阶层、复杂场景层”等多个维度,同时配套标准化的标注流程与质量管控机制。

1、基础层:实体定位与类型标注

这是实体识别标注的最基础环节,目标是“精准找到实体、明确实体类型”,是后续所有标注工作的前提。包含两个关键步骤:

1)实体边界定位标注

即精准标注文本中实体的起止位置,确保实体边界无偏差。例如,在句子“浙江省杭州市西湖区的雷峰塔是著名景点”中,“浙江省杭州市西湖区”(地名实体)的边界需从“浙”字开始,到“区”字结束,不能遗漏“浙江省”或多包含“的”字。

标注方式通常采用“字符索引标注”,即记录实体在文本中的起始字符位置与结束字符位置,确保机器能精准定位实体在文本中的位置。

2)实体类型分类标注

在定位实体边界后,需为实体标注对应的类型。根据不同场景之间的差异,实体类型大致可分为“通用类型”与“行业定制类型”两类:

通用实体类型:适用于大多数文本场景,常见类型包括:

人名:如“张三”“马斯克”“李白”;

地名:如“北京”“西湖”“太平洋”;

机构名:如“曼孚科技”“清华大学”“联合国”;

时间:如“2024年5月20日”“上周三”“凌晨3点”;

数字:如“100万”“3.14”“五十”;

日期:如“2025年”“100周年”;

产品名:如“iPhone 15”“华为Mate60”“新一代AI标注平台”;

事件名:如“杭州亚运会”“世界杯”“双十一购物节”。

行业定制实体类型:针对医疗、金融、法律、自动驾驶等垂直领域的个性化需求,定制专属实体类型。例如:

医疗领域:疾病名(如“高血压”“肺癌”)、药物名(如“阿司匹林”“布洛芬”)、症状名(如“头痛”“发烧”)、检查项目(如“血常规”“CT扫描”);

金融领域:金融产品(如“股票”“基金”“理财产品”)、机构类型(如“银行”“证券公司”“保险公司”)、交易术语(如“开户”“转账”“平仓”);

法律领域:法律条款(如“民法典第101条”)、当事人(如“原告”“被告”“代理人”)、法律文书(如“判决书”“起诉状”);

自动驾驶领域:道路元素(如“红绿灯”“斑马线”“人行道”)、车辆信息(如“小轿车”“货车”“非机动车”)、交通标志(如“限速60”“禁止通行”)。

2、进阶层:让机器理解“实体关联”

仅完成定位与分类,还不足以让大模型深度理解文本语义。在复杂场景下,还需要标注实体的属性与实体间的关系,让机器明白“实体的特征”与“实体间的逻辑联系”。

1)实体属性标注

即标注实体的固有特征或状态,让机器更精准地理解实体。例如:

人名实体“张三”:可标注属性“性别:男”“职业:工程师”“年龄:35岁”;

疾病实体“高血压”:可标注属性“类型:原发性”“症状:头痛、头晕”“治疗方式:药物治疗+饮食控制”。

属性标注的核心是“结构化”,需将实体的非结构化特征转化为机器可理解的键值对形式(如“键:性别,值:男”),方便大模型进行特征提取与分析。

2)实体关系标注

即标注两个或多个实体间的逻辑关系,构建文本的语义网络。这是支撑大模型实现“问答交互”“知识图谱构建”的关键。常见的实体关系类型包括:

从属关系:如“曼孚科技”与“杭州”(总部位于);

因果关系:如“高血压”与“头痛”(导致)、“熬夜”与“疲劳”(引发);

关联关系:如“iPhone 15”与“苹果公司”(研发);

动作关系:如“张三”与“文件”(撰写)、“医生”与“患者”(诊疗)。

标注方式通常采用“三元组标注”(主体-关系-客体),例如“曼孚科技-总部位于-杭州”,让机器清晰掌握实体间的逻辑关联。

3、复杂场景层:特殊实体与模糊实体标注

在实际文本场景中,存在大量“边界模糊、类型复杂”的实体,这类实体的标注是行业难点,需要结合语言学知识与行业经验进行精细化处理。

1)嵌套实体标注

即实体内部包含其他实体,需分层标注。例如,在“曼孚科技(杭州)有限公司”中,外层实体是“曼孚科技(杭州)有限公司”(机构名),内层实体是“杭州”(地名),标注时需同时明确两层实体的边界与类型,避免混淆。

2)模糊实体标注

即实体类型不明确或存在歧义,需结合上下文判断。例如,“苹果”既可能是水果(物品实体),也可能是品牌(机构实体),在句子“苹果发布了新款手机”中,需标注为“机构实体”;在句子“我买了一斤苹果”中,需标注为“物品实体”。

3)多语种/混合语种实体标注

针对包含多语种的文本,需标注不同语种的实体并统一分类。例如,在“马斯克创办了特斯拉(Tesla)”中,“马斯克”(中文人名)、 “特斯拉”(中文机构名)、“Tesla”(英文机构名)需分别标注,确保大模型能识别多语种实体的对应关系。

4)缩略语/简称实体标注

针对文本中的缩略语或简称,标注其全称与类型。例如,“北大”需标注全称“北京大学”(机构实体),“GDP”需标注全称“国内生产总值”(经济指标实体)。

4、技术流程:自动化预标注+人工精修+质量管控

实体识别标注的专业性与复杂性,需依赖“技术工具+专业团队”的协同,核心流程包括但不限于:

1)数据预处理

对原始文本数据进行清洗,去除冗余信息(如特殊符号、无关空格)、修正错别字、统一文本格式(如统一日期格式、数字格式),为标注奠定基础。

2)自动化预标注

利用实体识别模型或AI自动标注工具,对文本进行初步的实体定位与类型标注,生成预标注结果,大幅降低人工标注成本。

3)人工精修标注

专业标注团队对预标注结果进行逐句审核,修正实体边界错误、调整实体类型、补充属性与关系标注、处理模糊实体与嵌套实体等难点问题。标注人员需具备语言学知识与行业专业知识(如医疗领域标注人员需了解医疗术语)。

三、实体识别标注的核心应用场景

实体识别标注数据是AI大模型文本理解能力的“燃料”,其应用场景已渗透到生活、工作、产业的方方面面,尤其在以下领域发挥着关键作用:

1、通用AI大模型与智能交互场景

这是实体识别标注最广泛的应用场景,直接影响通用大模型的语义理解与交互体验:

智能问答与聊天机器人:如ChatGPT等大模型的问答功能,需通过实体识别标注快速定位用户问题中的核心实体,并从知识库中提取对应信息回应。

文本摘要与信息提取:大模型的文本摘要功能,需通过实体识别标注提取文本中的核心实体,再基于实体关联生成简洁摘要;信息提取功能可从新闻、报告、论文等海量文本中快速抓取关键实体。

机器翻译:多语种翻译场景中,实体识别标注能确保人名、地名、机构名等核心实体的翻译准确性。

2、垂直行业应用场景

在医疗、金融、法律、自动驾驶等垂直领域,实体识别标注需结合行业特性提供定制化数据支持,推动AI大模型的行业落地:

1)医疗领域:提升诊疗效率与合规性

实体识别标注帮助AI大模型从电子病历、诊疗报告、医学文献中提取核心医疗实体,支撑临床辅助诊断、病历管理等功能。例如,从病历中提取“患者姓名”“疾病名”“症状”“用药信息”“检查结果”等实体,自动生成标准化病历报告,减少医生文书工作量;从医学文献中提取“疾病机制”“药物疗效”“临床试验数据”等实体,帮助医生快速掌握行业前沿研究。

2)金融领域:强化风险控制与决策支持

实体识别标注帮助AI大模型从金融报告、交易记录、新闻资讯中提取核心金融实体,支撑风险控制、投资决策等功能。例如,从企业财报中提取“营收”“利润”“负债”等财务实体,结合实体关系分析企业经营状况,辅助投资决策;从交易记录中提取“交易主体”“交易金额”“交易时间”“交易类型”等实体,识别异常交易(如大额频繁转账),防范金融风险。

3)法律领域:提升文书处理效率与准确性

实体识别标注帮助AI大模型从法律文书、庭审记录、法规条文等文本中提取核心法律实体,支撑案件分析、文书生成等功能。例如,从判决书、起诉状中提取“当事人”“案由”“法律条款”“判决结果”等实体,自动生成案件摘要,帮助法官快速了解案件核心;从法规条文中提取“法律术语”“处罚标准”“适用场景”等实体,构建法律知识图谱,辅助律师进行案例检索与法律分析。

4)自动驾驶领域:强化环境感知与决策

实体识别标注不仅适用于文本,还可延伸至自动驾驶的图像/语音文本融合场景,帮助AI大模型识别道路环境中的核心实体。例如,从车载摄像头拍摄的图像文本中提取“交通标志”(如“限速60”“禁止左转”)、“车牌”“道路名称”等实体;从车载语音交互文本中提取“导航目的地”(地名实体)、“车辆控制指令”(如“打开空调”“调整座椅”)等实体,支撑自动驾驶的语音交互与路径规划功能。

3、知识图谱构建场景

知识图谱是AI大模型实现深度语义理解的核心基础,而实体识别标注是知识图谱构建的“核心环节”。通过标注实体的类型、属性与关系,将非结构化文本转化为结构化的知识三元组,再基于这些三元组构建知识图谱,让大模型能快速检索实体间的关联关系,提升语义理解深度。

四、曼孚科技让AI更精准地“读懂”文本

作为AI基础设施领域的领军企业,曼孚科技已构建起覆盖“通用场景+垂直领域”的全栈实体识别标注服务体系,通过“平台工具+专业团队+质量管控”的模式,为头部大模型企业、医疗机构、金融机构、车企等客户提供高质量标注数据,推动AI大模型文本理解能力的升级。

1、定制化标注方案

针对不同行业的个性化需求,提供定制化的实体识别标注服务,精准匹配行业场景。

例如,在通用大模型领域,涵盖中文、英文、日文等各类常见语种及小语种,覆盖新闻、社交、商务等多维场景;在医疗领域,定制化搭建“疾病-症状-药物-检查项目”的专属实体类型体系,构建起一套包含3000+医疗专业术语的标注规范库。

2、平台工具+专业团队

自研AutoLabeling实体标注引擎,基于大模型技术实现实体定位、类型分类的半自动化标注,结合AI辅助修正工具,标注效率提升数倍以上。

搭建“语言学专家+行业专家+标注工程师”的跨学科团队,其中行业专家覆盖医疗、金融、法律、自动驾驶等数十个行业领域,确保标注数据的专业性与准确性。

3、合规与隐私保障

针对文本数据中的隐私信息(如医疗病历中的患者身份信息、金融数据中的用户交易信息),曼孚科技构建了全流程合规体系:

严格遵循《数据安全法》《个人信息保护法》,对涉及隐私的实体信息进行脱敏处理;

采用“本地标注+加密传输+加密存储”的多重安全策略,搭建物理隔离的标注环境,防止数据外泄;

通过ISO27001、ISO27701等体系安全认证,全程追溯数据处理行为,确保合规可查。

五、未来趋势

实体识别标注是AI大模型“读懂文本”的关键前提,看似基础性的数据加工工作,却融合了语言学、行业知识、技术工具等多领域的专业能力。

从通用大模型的智能问答,到医疗领域的病历管理,再到金融领域的风险控制,实体识别标注都在背后发挥着不可替代的作用。

未来,实体识别标注将聚焦于进一步提升自动化标注水平、注重多模态实体融合标注等关键领域,推动标注的效率与精度的不断提升,推动智能时代的文本处理能力实现质的飞跃,从而支撑AI大模型实现更深度的语义理解与更广泛的行业落地。

据麦肯锡发布的《The state of AI in 2025》全球调研报告揭示,88% 的企业已在至少一个业务职能中常规使用 AI(如 IT、营销、知识管理),但 62% 仍处于实验或试点阶段,仅有少量实现企业级的规模化部署。我们可以理解为,当下企业的 AI 落地正呈现“高采用、低价值”的典型特征,多数企业卡在试点到规模化之间。

麦肯锡《The state of AI in 2025》报告

AI 应用进入深水区,竞争的核心已经转向规模化的落地能力,而非技术本身。这也指向一个重要问题:当下的 CIO 群体,想真正实践 AI 大模型在企业的有效落地,实现规模化价值,要化解过程中的诸多坑点与难点。

本文整理自阿里云智能集团副总裁、 CIO 蒋林泉在 AICon 2025 年 8 月所分享的 “阿里云大模型应用落地实践之路”,并完整呈现他对企业 AI 落地的经典方法论“RIDE”和数字人案例。文中,通过规模化上线的 28 个数字人的成功实践经验,分享从组织共识挑战、业务机会识别,到 AI 指标衡量,再到产品工程落地的体系化思考,以蒋林泉的第一视角,解析企业 AI 真实落地的系统路径。

第一视角观察

这是我自担任阿里云 CIO 三年以来,第一次对外发表演讲。此次分享浓缩我过去三年在阿里云带领团队推进数字化与智能化进程中沉淀的案例与经验。

在担任 CIO 之前,我主要负责阿里云飞天核心系统的产品和研发工作,当时对外的演讲内容更多围绕飞天和阿里云的产品,角色也更偏向于“乙方”的产研身份。而今天,以阿里云 CIO 的身份首次对外演讲,更多是站在“应用开发者”的角度,分享如何在企业内部场景中推进数字化和智能化落地的一些实践与体会。

阿里云智能集团副总裁、 CIO 蒋林泉

过去两三年,我带领团队致力于推动 AI 大模型在企业各类场景中的落地应用,在这个过程中有很多感触。想先谈一下,在这个阶段里的一些观察和思考。

在当今时代,我们常常会思考一个问题:一个人或者一个组织发展得这么好,到底是时代的原因,还是自己努力的原因?其实最主要还是时代的原因。我们能够发展到今天,很大程度上是因为坐在了一个很好的“电梯”。比如搭上了中国这个电梯,中国互联网的电梯,以及我所在的阿里巴巴这个平台的电梯。平台本身发展得很好,在上面自然也发展得很好。

换句话说,在电梯里做俯卧撑,还是在平地上做俯卧撑?两者达到的高度是不一样的。个人努力固然重要,但更重要的是平台。我认为,在这个时代,AI 就是那个最大的电梯。无论是组织还是个人,有没有搭上 AI 这趟电梯,将直接决定在未来能够达到的高度。

ARK INVEST 报告

根据 ARK INVEST 以往的一份调研报告预测,到 2030 年,算力性能相较于现在将增长 1000 倍。这是什么概念?在 AI 时代之前,我们常常讲摩尔定律,技术性能大约每 18 个月翻一番。而在 AI 时代,技术发展的速度被极大地加快了。如果不能及时搭上 AI 这趟高速电梯,大概率会落后于时代。

基于这样的认识,我们发现,无论是企业还是个人,都开始逐渐意识到 AI 的重要性。意识到这一点后,许多企业,包括 CEO 和业务部门,开始变得焦虑起来。

这就涉及到,这一轮科技革命与以往的科技革命最大的不同之处

在整个信息技术产业中,无论是 PC 互联网还是移动互联网时代,技术在企业中的应用过程是一个渐进的过程,非常循序渐进。那个时候,企业的 CEO 看到业界的炒作、厂商的炒作,都比较冷静,可以慢慢来。

然而,这一次的情况却截然不同。我觉得这是第一次,企业 CEO 和业务部门比 IT 团队、比供应商还“上头”。因此,我们可以说,现在企业内部最大的矛盾,就是业务部门在社交媒体、PR 渠道里看到的 AI,往往呈现出一些“炸裂”、“梦幻”的效果,而 IT 部门或者说 CIO,在实际生产力上的发展却是不均衡、不充分的。这种矛盾体现得非常突出

在阿里巴巴集团内部,以及我与业界几十位 CIO 交流的过程中,观察到,在企业内部,这种现象大量存在。企业中会涌现出很多 Idea,做出很多 Demo,上线很多技术平台,一个团队里,恨不得要搭好几套 Dify 平台,各种智能体平台都在搭建。但是,在这些过程中,还是技术主导比较突出,更多是拿着平台去做 Demo,业务方的参与往往比较浅层。这类现象在企业里是比较过剩的,可以说整个企业都充斥着类似的情况。

与此同时,我在企业中普遍观察到,很多方面的投入都严重不足:是否真正深入到业务本身去做价值识别,或去正确地定义产品,以及如何开展知识工程(注意,这里我们不再仅仅是传统的软件工程,而是知识工程),还有我们强调的业务专家知识动员。

因此,我们认为,如果要在企业里真正用好 AI,并且产生实际的业务结果,就要做非常大的投入。恰好,在这个领域,我们做了很多探索和实践。

阿里云企业大模型应用实践落地

接下来,想向大家展示阿里云内部企业 AI 大模型业务落地的全景图。

在这张图中,我们可以看到很多“数字人”,无论是在阿里云的官方网站、CRM(客户关系管理系统)、业务支撑系统,还是在内容管理系统、人事管理系统中,这些数字人都已经广泛地落地应用,并在原来的业务中发挥真实的效果。

在过程中,我们已经落地了大约 28 个数字人项目,从中挑几个有代表性的例子来分享,让大家更有体感。

AI 翻译数字人

大家都知道,翻译是大模型非常擅长的事情。

但在阿里云,我们遇到过很大的挑战。作为一家公共云服务提供商,为客户提供服务时,文档的作用至关重要( ToB 的服务非常依赖文档)。阿里云拥有 300 多个产品,十几万篇文档,涉及上亿文字。其中有一个非常大的痛点在于“出海”,我们要出海到日本、美国、欧洲、印尼,还有土耳其,而我们的开发者要高度依赖文档,来操作云计算服务。

问题在于,我们缺乏既懂本地语言,又懂云计算的人才,技术类的翻译必须同时具备这两方面的能力。但即使有足够的资金,也很难招聘到这样的人才。过去,我们只能选择“忍”,仅翻译了英文文档,以及部分日文文档,而其他语言的翻译工作基本停滞不前,这也导致海外开发者的反馈不佳。

在这一轮 AI 技术突破之前,我们尝试过用传统 NLP 来做翻译,但效果根本不行。到了 ChatGPT 3.5 版本,我们发现自然语言处理技术,仍然无法满足我们的需求。而到了 ChatGPT 4 版本,我们再次尝试发现,翻译质量终于能和那些“既懂技术又懂本地语言”的专业译者打平。

而且,当时也做了计算(时间在一年多前),每篇文档的翻译成本,仅为当初专业技术翻译团队的 1/200。从那时起,我们开始大量使用大模型进行翻译工作,到现在,我们已经完成了印尼语的全部翻译工作。这意味着,解决了原本靠资金也无法解决的组织问题。

如果用专业的评分来看,过去,用懂本地语言、懂技术的专业翻译团队来翻译,评分大约为 4.12 分(满分 5 分)。现在,我们用 AI 来翻译,评分能够达到 4.68 分。在海外市场,我们发现海外网站的用户体验以及 NPS(净推荐值)都得到了显著提升。因此,这不仅仅是一个成本问题,更是通过 AI 解决了过去无法解决的难题。

技术文档验证数字人

刚才提到,阿里云有十几万篇文档,覆盖三百多个产品。其中,有一半是操作指南和解决方案,客户需要完全依照这些文档进行操作。

这里一个很大的问题是:传统 IT 产品可能是半年或一年一个版本,文档和产品可以同步开发。但我们是互联网模式的 IT 系统,我们的情况是,线上功能不停迭代,功能的迭代和我们文档的一致性,就要实时保证。

原来,也是依赖外包团队进行文档验证和测试,由于“带宽”限制,只能解决中文文档的验证问题。每六个月会把所有文档“跑”一遍,去验证它们和线上功能是否一致,经常会发现有很多版本不一致的问题。但这个过程本身就有很大问题:首先一轮验证就需要六个月时间,当第一个月验证并修复好的内容,到第六个月,验证可能又变得不一致了。原来,我们一直没能把这个问题解决,导致客户经常会遇到功能与文档不符而操作不下去的问题,这就要求我们提供最新内容。

现在我们是怎么做的呢?用 AI 来模拟这个过程:它会左边打开技术文档,右边操作浏览器里同步打开阿里云网站,然后严格按照文档里的步骤进行操作。过程中,AI 一旦卡住或无法继续,就大概率意味着文档和实际功能不匹配。虽然少数情况是云产品控制台本身的问题,但绝大部分的确是文档与功能不一致。当 AI 发现不一致时,它会立刻把不一致的“单拎”出来,并自动创建一个 Aone 需求单。

我们后续还有一个“文档修复数字人”,它会“接手”这个 Aone 需求单,分析实际情况与文档描述的差异,并做修复。然后,它会把这个修复好的文档,给到我们 technical writer 做确认,确认后就能上线了。

这之后,过去需要六个月才能完成一轮的验证工作,现在只要一个星期。同时,我们现在也把这套验证机制应用到日文、英文以及其他语种上,确保国际站的功能和文档也能保持一致。

过去靠人工验证时,一致率到底是多少?验证质量好不好?覆盖度够不够?这些其实都是一个“unknown”的状态。而现在,一切都变得清晰、可量化了

网站 AI 助理数字人

第三个案例是网站 AI 助理。阿里云有几百万客户,那我们的自服务模式是怎样的呢?

我们来看一组数字:每天大约 97% 的客户访问阿里云,都是通过自助操作,只有 3% 的客户会选择“提工单”。而在这 3%的客户中,百分之七八十的任务也还是由自己解决的,只有极少数最终会变成需要人工介入的工单。所以,我们的客户绝大部分是自服务的

但即便如此,由于我们的客户基数太大,这“漏”进来的一小部分工单,依然需要我们服务团队投入大量人力去处理。在这些工单里,有一半都属于“咨询工单”。什么是咨询工单呢?就是客户遇到问题直接提问,我们的小二在后台查文档、翻知识库(Knowledge Base),找到答案再回复给他。这类工单纯粹是信息问答,不涉及操作。

这类工单主要有几个问题:第一是一半的工单服务成本很高,第二是个时效问题。我们统计过,过去一个咨询工单的平均关闭时间,绝大部分要到 5 个小时左右。也就是说,一个客户平均想要解决这种咨询问题,需要花费大量时间才能解决。

网站 AI 助理上线后,大量的咨询问题已经由 AI 直接回答了,而平均响应时间是 10 秒左右。

目前,我们正在和服务团队合作,与服务团队共同承担全年工单降量,我们一起努力,希望通过 AI 在网站自服务的深入应用和渗透来实质拓展服务带宽,更重要的是,能够一起提升阿里云的客户服务体验。

智能电销辅助数字人

刚才讲的是服务,探讨了如何帮助客户解决咨询工单和自助诊断的问题,把服务体验提升了。现在来看另一个场景:销售

阿里云要服务上百万的企业,无法对每一家企业都用直销的方式去覆盖。因此,我们有很大一块业务是面向中小企业(SMB),通过电话销售来帮助我们客户实现售前咨询,以及售前购买的问题。

电话销售小二的日常工作,主要分为话前、话中、话后三个环节。话前: 小二需要做计划,规划当天要打哪些电话、了解客户的商机、准备话术,并排好优先级。需要这样一个准备过程,才能保证一天的工作有序高效;话中: 就是与客户的实际沟通;话后: 需要复盘,记录通话小结,整理哪些需要 follow-up,哪些需要申请折扣。需要处理的问题都要记下来,这样才能闭环到后续的业务处理,形成一个完整闭环。

现在,我们在这三个环节都提供了 AI 数字人。

● 在“话前”,由 AI 来完成通话计划,包括怎么打,话术是什么。过去小二自己排计划要花半个多小时,现在一上班,计划就已经生成好了,可以直接开工。

● 在“话中”,我们提供了一个智能辅助提醒。当小二与客户通话时,系统会根据对话内容,在工作台右侧实时提醒他如何回答,比如客户在说他想要这个,建议你这么回答。目前已经在辅助小二去解答客户非常复杂的一些云计算咨询问题。目前话中提示小二的采纳率已经达到了 50%

● 在“话后”,像通话复盘、撰写小记、follow up,包括后续的通话质检,这些工作都交给了一个自动化的 AI 数字人来完成。

通过这种方式,我们的小二可以从繁杂的事务性工作中解放出来,集中精力在真正的销售沟通上,大幅拓宽了我们销售的服务带宽。同时,AI 的智能计划、实时辅助和后续复盘,也极大地提升了我们服务客户的质量。

智能质检数字人

AI 应用到电话质检之前,这几乎是一个原理上无解的事情。

原来我们大规模的外呼电话作业过程,是非常难被知晓的。比如中间过程是否按照公司的作业规范进行?与客户的沟通是否足够礼貌?更有时候,有的外呼人员可能会把客户引导到私下公司去联系、去成交。但原来,我们是很难去做这个电话质检的,因为这是语音作业,很难管理。

而现在,我们用 AI 把所有的电话语音全部智能化,从而识别里面所有的这些问题,再通过统一的质检标准,就能够得到一个规模化的质检。于是,这个 AI 质检能够大规模地提升我们的服务质量与效率,覆盖全量业务场景,关键还能控制我们的业务风险(避免产生额外的风险)。

可以说,这件事我们原来几乎是无法搞定的,因为原来是靠抽样,也就是人工抽样去听那些电话录音,如果抽样抽到了问题,再去一个个处罚,但效率是非常非常低的。它的抽样完整性、抽样覆盖度都几乎是没法被使用的(覆盖度仅有 2%),不同质检员的判断差异也很大,对人力的消耗也很厉害。所以,现在通过 AI 质检数字人,能够让覆盖度提升到 100%,质检的准确率也远高从前,带来的最终效果是非常好的,这使得整个服务质量能够规模化地提升上去

智能外呼数字人

刚才我们讲到 AI 如何辅助做事,这里则是一个能直接进行智能外呼的数字人。

众所了解,云计算本身是非常复杂的,如何招聘到足够多的外呼坐席人员,让他们既具备相关技能,又熟悉云计算知识,同时还能够耐心地每天坐在工位打一天的电话,这对我们来说是一个巨大的痛点。因为招聘和能力培养难度很大,人员流动率非常高,这使得无论是销售服务,还是电话服务的质量,都存在明显的短板。

本质来看,这是一个短线影响业务增长,长线影响服务满意度与企业品牌塑造的问题。

我们在前期已经有一定的知识积累,包括语音、多模态等方面的经验,因此,我们通过 AI 的方式直接引入智能外呼。它直接上场,与我们的客户沟通,挖掘销售商机,交付给服务团队去做主动的服务

目前,在潜在客户的线索清洗、免费试用、转生产、以及产品即将到期的续费提醒等主动外呼场景中,这个数字人已经上线运行了。目前,我们还在开发场景包括产品到期的主动关怀、NPS 调研等,上线后,预计可以拓展出“能交付结果的”上百个 HC 的服务带宽。

数字 AI 客服的外呼,还有些不一样的特征。首先,它可以灵活、快速地按需扩容,而且,它的声音可以做得更甜美,也可以做得更有情商。更重要的是,在技术的不断加持下,这个 AI 小二解决问题的能力,可能已经超过了原来人类员工的平均水平,而且还在不停地提升。目前,我们的智能外呼数字人可以像“金牌销售”一样工作,非常接近真人体验。未来会有更多的想象空间,让它能够更好地服务阿里云客户,提升我们的服务质量。

直销辅助数字人

分享了很多电销案例,这里谈谈“直销”场景。

在阿里云的直销业务中,我们面临着一个核心挑战:销售如何变得更加专业和高效,促进公司业绩增长?在实际工作中,我们的销售团队遇到了两大业务痛点。

第一个痛点:云计算销售要求高、招聘难、培养成本高。

云计算销售不仅需要具备良好的客户拓展能力,还需要深入理解云计算技术与行业应用场景。复合型人才稀缺,招聘难度大、周期长,新人从入门到胜任,需要经历数月的培训与实战积累,培养成本居高不下。

第二个痛点:销售运营专业服务带宽不足。

销售运营、数据 BI、财务、法务等运营中台的服务带宽,无法充分支撑前线销售需求,难以及时响应每一位销售人员的专业支持诉求。

为了解决这些问题,我们将整个销售流程分为“拜访前”和“拜访后”两个关键环节,在每个环节都提供 AI 数字人的全方位支持。核心围绕销售作业的有效性展开,让直销过程实现“在线化”,全面提升销售过程的辅助效率。

拜访前:销售“一键”获取客户“谈参”,了解客户用云信息、技术类型、解决方案、竞对情况等全面画像。过去,销售自己从各渠道去查询要花 1 个多小时,现在,10 分钟就能查询到,而且信息质量更优、内容更全面,有效促进了与客户 key person 的高质量拜访。

拜访后:我们提供 AI 对拜访过程的全方位复盘,包括商机要点是什么,客户对阿里云品牌表现出的情感倾向是什么,建议后续怎么推进客户成单。

通过 AI 软硬结合的优势,我们让直销的销售过程实现“在线化”,高质量拜访小记达到 100%全面覆盖,新销售也能通过高质量在线信息资产快速学习,上手周期缩短 50%,大幅降低新人培养成本。

这种方式,相当于拓展数百位专业销售运营为销售团队“贴身辅助”,销售人员得以从繁琐的流程性工作中解放出来,能够更专业、更高效地服务客户,大幅提升了销售有效性,有力促进了公司业绩增长。

合同风险审核数字人

ToB 业务的一大特征,是有大量的政企和大客户,他们通常不会使用我们的标准合同。这些合同金额巨大,需要进行严格的风险审核,涵盖财税法、风控、信控等多个方面的风险。

过去,要完成这样的风险审核,我们需要专业的法务、财务等领域的精英人士,他们大多来自国际四大会计师事务所。然而,鉴于我们业务规模庞大,不可能招聘到足够多的精英来从事这项工作。因此,我们在合同风险审核方面遇到了巨大瓶颈,审核时间过长,最长甚至可达 5 个月,平均也需要两周到一个月。这极大地拖累了业务效率,包括服务大客户的效率。

为了解决这一问题,我们培养了一大批“数字人”,包括财务数字人、信控数字人和法务数字人。并且,把这些数字人送到合同撰写端,让他们在销售和客户沟通、合同拟定的瞬间,就能够实时识别潜在风险并提示谈判方案,而不是等到审核端后才发现问题,再回过头去处理。

合同审核端,我们通过审核标准数字化、专家经验数字化,用统一的标准执行,极大提升了准确率。而 AI 也正是实现知识工作线下流程线上化的体现。

通过 AI 技术,我们不断拓展中后台的服务带宽,解决商业拓展流程中的效率瓶颈。后续,我们也期望它在风险拦截上的能力,能够持续提升。

员工服务数字人

为什么特别提到员工服务数字人?

因为大型企业里,HR 系统有一个显著特征,就是非常分散。比如请假、体检、福利、在职证明等,各式各样的流程和服务都散落在不同的系统里。与此同时,各类政策也同样分散,包括公司内部的福利政策、外部的人才政策等等。

员工在需要获取这些信息或使用这些系统时,会遇到两个难点:第一,这些服务是低频使用的;第二,它们分散在不同地方,获取难度非常大。由于是低频服务,无法配备一个庞大的服务团队来支持,所以 HR 团队的负担很重,而员工的服务体验也不足。

为了解决这一问题,我们将这些低频、分散的服务全部整合到一个智能体中,通过钉钉平台打造了一个“云小宝”(数字人),为员工提供统一的智能服务

我们发现,通过引入智能体,折算下来相当于节省或新增了几十名员工在为大家服务。更重要的是,员工的体验得到了极大提升,比如,我们服务员工的响应时长已经从平均 7.2 分钟缩减到 5 秒。再比如,员工只需要用自然语言输入,如“下周一请假”、“国庆前后两天请假”或“为父亲预约体检”,系统就能迅速响应并完成操作。

面试智能辅助数字人

还有一个场景,我们聊聊招聘。

首先,我们对外招聘,核心是描述我们需要什么样的人。从这个角度出发,前置是 OKR,我们通过 AI 分析每个部门日常在做什么,目标是什么,根据日常目标和事情,去看清楚招聘的 JD(职位描述)是不是合理

再者,从 JD 开始,根据岗位要求,再结合当前的候选人简历信息,在面试的时候就会生成面试计划。面试时,结合岗位要求,面试官应该问哪些问题?根据最佳实践,怎么去考察候选人?这些专业问题在面试前,已经帮面试官提供好。面试中,通过对话过程,发现应该追问哪些问题,以及面试后,怎么总结面试过程中候选人是不是 qualified 这个岗位。

通过 AI,我们可以更结构化、体系化地来做这件事,使得面试过程管理,面试质量,以及对面试人评价的客观性,都得到很大的提升。这也彻底改变了原来仅仅通过电话形式的面试,因为它的过程是一个黑盒逻辑,而“黑盒”最大的问题是无法提升过程的质量,包括保持长期的、闭环的有效性。

对一家公司来说,招聘是件非常严肃的事情,我们经常讲,如果招错一个人,会导致后面的事情是非常糟糕的。所以本质上来讲,面试智能辅助数字人,提升了我们整个组织在招聘进人方面的有效性。这不只是效率问题,而是能够规模化促使我们在面试过程中的专业性、面试评价的专业性得到质的提升。

28 个数字人全面上岗,真正产生业务价值

目前,我们有二十几个场景实现了数字人的智能化服务,这里只是挑选了 10 个来举例。

这些数字人应用背后的评估衡量,有一个共同逻辑:

一是折算拓展了多少人力;

二是业务效率提升了多少;

三是业务效果提升了多少。 

我们非常注重这一结构,因为每一个数字人上线落地,都必须衡量其对原来业务是否真正拓展了服务带宽 ,并且,是否比原来人工操作的效率和效果更好,这是非常关键的,与外界所谓的众多智能体最大的区别,就在于此。

这些智能体最终都是在对应的岗位上实际工作的。在我们的 HR 系统中,这些数字人被分配到对应的业务部门,向对应的业务团队汇报工作,与我们从外部招聘的员工没有任何区别。所以,它们必须在对应的岗位和业务团队中,发挥超过一定人数的实际任务执行作用,才能真正融入团队。

在我们的钉钉系统以及内部工作系统中,这些数字人与普通员工一样,拥有工号和头像。唯一的区别在于,它们的工号以“AI”开头,如 AI001、AI002,目前我们已经有大概 28 个智能体上线,后续还有更多智能体在排队等待上线。

当然,在过去两年,带领团队推进业务落地的过程中,我也深刻体会到,真正将技术应用于业务并取得成效,没有那么简单。特别是,真正在业务中产生价值和仅仅做出一个 Demo 之间,是天壤之别。

接下来,想和大家进一步分享,我们在这一过程中遇到的困难,以及总结出的一些解决方法,希望能对大家有所帮助。

大模型 E2E 落地坑点与解法 —— RIDE

大家可能听过红杉提出的一个概念叫 RaaS,即“结果即服务”。这一概念的核心在于,如果仅仅提供工具和产品,让企业自行落地是不够的。所以,我们特别重视真正上线,并产生业务结果的项目。

我作为 CIO 所带的团队,在企业内部为业务部门提供的,就是这种 “以交付结果为导向的服务”。在推进 RaaS 的过程中,也总结出一套方法论,叫 RIDE

RIDE 包括四个关键步骤:Reorganize(重组组织与生产关系)、Identify(识别业务痛点与 AI 机会)、Define(定义指标与运营体系)、和 Execute(推进数据建设与工程落地)。

首先是 Reorganize。在 AI 时代,新的生产力下,原来的生产关系是非常不适应新生产力的发展,这种不适应会在每个毛孔里面表现出来,然后阻碍 AI 的发展和落地,所以要求我们要重新调整生产关系。第二,是 Identify。也就是我们需要精准地识别出企业中哪些问题适合用 AI 来解决,这要求我们首先明确问题的定义,然后结合 AI 的能力和业务需求,确定哪些问题可以通过 AI 得到有效的解决。然后是 Define。在明确了问题和 AI 的能力之后,我们需要精准地定义产品及其运营指标,进行准确的指标跟踪。最后才是 Execute。执行阶段是一个金字塔结构,上面是业务目标,下面是工程数据和评测,中间是工程应用算法。

当然,这套我们称之为 RIDE 的方法论,并非在做 AI 转型的第一天就有了,而是在二十多个智能体真正有效落地业务的过程中,我们发现,如果不遵循方法论中的这些步骤,项目很可能会失败。遵循这些步骤,虽然不能保证 100% 的成功,但至少可以提高成功的概率。这是一套用两年时间、用血泪经验总结出来的方法。

Reorganize |重组组织与生产关系

书同文、车同轨 :AI 时代的通识教育

我们首先从 Reorganize 开始讲。

在落地第一年,我发现了一个问题:无论是业务团队还是我们自己的团队,对大模型的能力边界、发展程度、具体原理等基本概念的理解都存在差异,甚至在我自己的团队,产品经理、算法、工程团队内部都无法拉齐概念认知。

为了解决这一问题,我们发起了一个行动,叫 “书同文、车同轨”。 我们要求全员参加 AI 大模型的认证培训。最主要的原因,是要解决大家在基本功和认知逻辑上的差异。我称之为 “AI 时代的通识教育”,相当于要在团队里重新走一遍“高中的教育”

这一培训分为两类:大模型 ACA 认证(面向非技术人员)、 大模型 ACP 认证(面向技术人员),因为我们不仅需要技术人员之间能够对齐话语,也希望非技术人员和技术人员对齐话语。

这种通识教育对于团队的协作至关重要,首先在我们 CIO 线内部已经完成了全员的认证,后面,我们的业务方,也就是我们的财务、人力、销售、中后台等都在做 全员认证

目前,整个阿里巴巴集团都在用这个方法来做 AI 转型的基础教育,重新建立大家的基础认知。不然就会出现这种情况:大家都在谈论同一个概念,但其实理解的内容和现实完全不同。如果没有做过深入工作,很难体会到那种无力感,一旦通过通识教育统一认知,沟通效率就会显著提升。

阿里云大模型 ACA 认证:

https://edu.aliyun.com/certification/aca13?spm=a2cwt.28380597.J_1564692210.17.28813487dUqGKW

阿里云大模型 ACP 认证:https://edu.aliyun.com/certification/acp26?spm=a2cwt.28380597.J_1564692210.18.28813487dUqGKW

「企业免费体验」大模型认证:https://edu.aliyun.com/learning/topic/llm-free-trial

这样的基础上,又设计了两个比赛。一个是产研提效比赛,一个是业务提效比赛。和其他大赛最大的不一样,我们的比赛是真正以 E2E 为衡量标准的。 

比如产研比赛,我们要看的,是原来 E2E 同样粒度的一个需求,需要多少“人月”完成,而现在能减少到多少人月。而不是看代码采用率,因为代码采用率很容易“灌水”,而且它往往只能补全那些最容易写的代码,最难的代码可不容易补全。

在业务 E2E 方面,我们的比赛就是要真正进入业务场景,帮助业务去拓展,而且效果和效率都要超过原来。所以,这两件事非常重要,第一,是做“书同文,车同轨”的通识教育,因为 AI 时代的知识在不断发生巨变,每个月都在变,现实的实践知识和原来的基础知识都有大量的不同;第二,是“以赛促练”,整个组织通过正确目标下的比赛,大家会发现短板,发现相互之间可以学习的地方,就能够激发组织不断地去创新、去提效。

数字员工 :业务方与 IT 方 联合培养

再说说我们的数字员工

有一个非常关键的安排:我们的这些数字人最后都是汇报给业务部门的。这不仅关乎形式,更重要的是心理。我们不能让业务部门觉得,AI 技术会威胁到他们的工作,而是要让他们明白,AI 技术是来帮助提效的。如果这个关系没处理好,就会遇到无数的暗礁。

所以,我们把自己定位为数字人供应商,业务部门是 AI 先进组织,业务部门可以雇佣我们的数字员工,并与我们一起联合培养。 这样,业务部门会更愿意接受 AI 技术,减少阻力。所以这是第一点,我们把自己退到一个外包供应商的位置上。

第二点,我们还发现,AI 数字员工是不能扛责任的,也不能给它打“3.25”(低绩效)。这意味着,数字员工在系统里执行任务出了问题,谁来承担的问题。我们将 AI 数字员工汇报到业务部门,属于业务部门的人(让他们放心),并一起参与 AI 员工的培养过程,同时数字员工也会受到正式员工的监督,来承担相应业务领域的责任。

定标准 :AI 要与人比,不与“神”比

另外,我们经常听到一句话:ToC 还好,但 ToB 的大模型有幻觉,做不到 100% 正确。但实践经验告诉我们,其实人也有幻觉,而且人的幻觉还很大。如果认真看,在很多任务里,人其实也是不靠谱的,也经常会失败,只是企业没发现而已。

我们强调的一点是:如果 AI 项目和业务部门真正达成了共识,并且通过培养逐步磨合,就必须认真回头来看,AI 的要求标准到底是什么?

如果要求 100% 正确,其实就是把 AI 拿来和“神”比。但如果是和原来人做事的效果和准确率去对比,那就是和“人”比。所以,追求比人做得更好、更准,才是真正有意义的对标

那怎么避免和“神”比呢?回到前面所说,解决生产关系的问题,处理好内部业务的逻辑、目标和关系,这样才能真正实现 AI 和人比,而不是和“神”比。

在整个 Reorganize 的过程中,我们还发现,要把数字人汇报到业务部门,对 HR 部门来说,这就等同一个“正式员工”。注意,我们是真的把它当作正式员工来看待的,用它能否产出真正的业务结果来度量。

所以我们在内部与 CPO(HR 负责人)沟通时,讨论过:怎么去度量 AI 数字人是否真的发挥了一个正式员工的效果?最后,我们确定了一个方向:AI 数字人必须有一个目标,就是在原有具体的业务流程里,接管一个重复且有价值的任务,并且能够折算出“相当于拓展出多少人力”,这就是唯一的目标。

但要 真正让数字员工上线、上岗,必须满足两个标准条件: 一是数字人执行原来任务的效率,一定要比原来提升一定百分比,一定要比原来执行任务的人效率高;二是数字人执行任务的效果,同样,也要比原来提升一定百分比。只有当数字人做到效率高、效果好时,才能“正式上岗”,进入业务部门工作。

Identify |识别业务痛点与 AI 机会

从三个特征,挖掘 AI 机会

刚才讲的是 Reorganize,如果不解决 Reorganize 的组织问题就会不断遇到暗礁,甚至没法往前走。但解决了组织的问题后,业务部门会说,好,我们来联合培养数字员工。那从哪里开始呢?

所以第一件事就是业务机会的识别(Identify)

这轮 AI 革命的核心其实是 LLM(large language model),所以,我们在内部有一个逻辑:所有以 language 为中心的工作,都将被大模型深刻影响。比如电销、客服、招聘、OKR、文档、翻译、合同审核,还有研发类的 C language、Java language、SQL language 等,这轮以 language 为中心的工作受影响最大。所以第一个特征是 Language 类 工作。

第二个特征是被重复执行、规模化执行。因为 AI 是自动化的,越大规模、越重复的任务,AI 越有机会去做。第三个特征是,如果本身缺人,甚至有人投诉效率低,那这个地方就是个大的机会。

这三个特征,是我们与业务部门一起来 Identify,识别哪些业务是可以着手的。这也是我们在内部形成共识后,如何去识别机会、定义机会的关键点。因为只有把问题定义清楚了,后面做事才会顺畅。如果解决错了问题,那投入就白白浪费了。

数字员工,以“单任务”为核心换算

另外,我们刚才讲到,数字员工要在对应的任务里拓展目标,也就是拓展对应岗位的人力,实际面对各种场景具体怎么处理,又怎么核算?

我们的经验是,首先,有些“单任务岗位”,比如技术翻译,我们是按字收费的,那么,AI 翻译一个字多少钱,就可以直接线性替换了。一个人一天的产能可能是翻译 2 万字,那我们就差不多折算成 “2 万字的产能”等同于“一个人”。

如果是“多任务岗位”,比如产品经理,他一会儿做 PRD,一会儿分析工单,一会儿画 Demo,一会儿又去客户那里访谈。这种多任务岗位,我们发现往往有些任务是重复的、繁琐的,也不是高价值的。为了提效,非常适合将这些低价值任务,拆分成一个个“单任务岗位”,如工单分析岗位、产品原型设计岗位等,让数字员工去做。

这样,原岗位上的人就从繁琐工作中卸载出来,可以聚焦在更高价值的主线工作上,他们的幸福感也会爆棚。在换算方面,最终也都是”以单任务岗位为核心进行 HC 换算”,逻辑清晰明了。

这种方式原先主要是由外包承接,但受制于外包员工管理难度大、成本构成多、招聘周期长、稳定性低、用工风险高、能力上限低(薪资因素)等诸多原因,多方面都受到约束,无法大面积展开。当我们有了数字员工之后,自然解锁了这些约束, 这件事就变得更加切实可行。 

Define |AI 的产品度量与运营度量

准确率是 AI 产品核心

过了 Identify 这一步,下面就是 Define

这个时代和以前做产品有很大不同。我们前面提到的一些产品大多都类似,比如都有交互、体验。在这个流程里,其实和上一轮移动互联网的产品没有区别。但 AI 产品有一个特别关键的点,就是“准确率”。 当然,除了准确率之外,还有响应时效性和安全合规等非功能性指标,比如在电销过程中,和客户实时对话,延迟必须非常低,不然客户会觉得交流效率不高,像机器人说话一样。

因此,实时性和准确性非常关键。如果准确性不够好,客户根本无法使用,也根本不可能真正上岗。所以,准确率是 AI 项目的第一核心指标,整个项目组都必须盯住它,这也是产品定义中最核心的部分,必须重新去 Redefine

运营与产品指标「协同度量」,才不掉坑

此外,运营指标同样至关重要。如果只有产品指标和准确率指标,那大概率会掉到“坑里”。即使是在对内的业务项目里,原来移动互联网那些基本功也不能丢,比如:

  • DAU(每日活跃用户数);

  • 用户提问数;

  • 渗透率,即目标客户的覆盖率;

  • 留存率(最关键)。

如果同一个客户今天用了,下周还愿意继续用,说明这个 AI 智能体真正帮他解决了问题。如果客户只用了一次就不再回来,那么无论前面的产品指标再漂亮,都没有意义,那可能就是定义错了问题。运营指标就是用来兜底的,如果不紧盯这些指标,很容易让产品、工程和算法团队陷入“自嗨”。什么叫自嗨?就是他们说“我的指标很好”,结果客户根本不用。

举个例子,在阿里云官网的 AI 助理中,我们就设定了这样的度量方式。

如下图所示,左图展示了准确度的度量指标,时间线大约覆盖从去年到今年的一年时间。蓝色区域代表表现良好的部分(精准解决了客户的咨询问题和任务),黄色区域为中等水平(虽解决了任务,但伴有大量无关信息),红色区域则是表现差劲的部分(回答与客户问题完全不相关)。中间图展示了 DAU 和客户问题数,右图则是留存率。

目前,我们的留存率实际上已经达到了一个相当高的水平(PPT 中并未刷新数字)。从图中可以清晰看到,随着准确度的持续提升,DAU 和留存率也在稳步上升。但是反之,如果 DAU 和留存率始终停滞不前甚至下滑,即使你的工程和算法团队声称准确率很高,那无疑是自欺欺人的。

实际上,很多工程算法团队成员,可能并未意识到上述这一点。之所以能明确指出,是因为在左图的准确度指标上,我也曾经被多次误导,但这也并非团队有意为之。在如今的信息环境中,随便搜索公众号就能发现大量类似“用这一招,你的准确率能提升到 95%”的文章,但这些文章往往存在误导性,它背后都有一个前提条件,即在某个狭窄的小场景下,准确率能够达到 95%,然而在面对海量问题时,这一指标却难以提升(这一点稍后会详细分享)。

Execute |推进数据建设与工程落地

掌握「产品研发工程金字塔」

定义好了产品和运营指标(Define),往下走才是执行(Exectute)阶段。

Exectute 阶段的关键在于:一定要用产品和业务目标来拉动。因为在牵引拉动的过程中,才能充分动员领域知识专家的参与和评测。 

如果没有知识专家的深度参与和强大的评测能力,大模型的应用上限是很难提升的,这是第一点。第二,如果项目目标缺乏价值,或者没有真正的痛点,那么会发现得不到资源的“祝福”。也就是说,一方面难以获得其他团队的配合,另一方面自身团队的价值感也难以维持,这将直接影响项目的推进。

在整个执行逻辑中,金字塔最下面是工程的数据与评测,我把这个放成最大的一块底座,因为这是基石——业务数据、业务 API 以及评测能力是大模型应用的基础,对这一部分的投入必须充足。

在这一基础上,才是工程应用算法、预训练(Pre-training)、RAG 以及微调等等,这些在媒体报道里面出现的技术热词,并非不重要,但这些只是 “必要条件”。我观察到,大多数产研团队在这部分(工程 - 应用与算法)投入了 80% 至 90% 的时间。

但想强调的是:这些只是必要条件,仅靠这些无法解决企业 E2E 落地的问题。哪怕你在必要条件上投入再多,再加 10 倍的努力,也无法实现真正的 E2E 落地。因此,必须设法补齐真正实现 E2E 落地所需的充分条件。 如果无法做到这一点,项目成功的希望将十分渺茫。

常见的 LLM AI 应用范式:翻译、Agent

在与业务团队沟通以及处理各种复杂问题的过程中,我们总结出了几种常见的模式: 首先是基础设施层面,涉及知识和数据的构建;中间是编排和调度,无论是大家熟悉的工作流编排,还是智能体自主规划编排,或是两者的结合;最上面是对客的产品与运营。

这里,重点讲述图中深蓝色部分的两种模式:第一个是翻译模式,第二个是 Agent 模式,我认为主要分为这两种典型的应用模式。其中,翻译模式最容易取得成效,因为它相对简单;而智能体模式则较为复杂。

翻译模式:关键在“蛋糕坯”

先谈谈翻译模式。 在公司内部,我们将所有翻译类模式统称为 AI 领域的“低垂果实”,这类模式相对容易实现。

这一轮的大型语言模型背后的算法是 Transformer。Transformer 最早是 Google 为了翻译任务而开发,在不停做翻译的过程中衍生出了 Transformer 算法。随后,预训练模型如 BERT 也大量应用于翻译领域。所以,大模型的原理 Transformer 特别擅长做翻译。

翻译又可以分为狭义翻译广义翻译

狭义翻译指的是中译英、英译中等语言之间的转换。而广义翻译则涵盖更广泛的形式,比如:自然语音转成文本,再转成语音;自然语言转成 SQL 语言;自然语言转成 Java 语言;甚至让一篇论文用自然语言“翻译”成中学生能听懂的表述,这些都属于广义翻译范畴。无论是狭义翻译还是广义翻译,Transformer 都特别擅长,因此这是最容易出结果的地方。

这里有一个坑: 虽然(图中)左边的翻译能力已经具备,但如果右边原有的系统还没准备好(not ready),就会出现问题。

以 Chat BI 来说,为什么 Chat BI 在企业里没什么成功的案例呢?其实很大一部分原因在于,Chat BI 的逻辑无外乎就是:用自然语言翻译成 SQL,然后在后台的数据库或大数据系统里执行,再把执行结果取出来,再翻译成自然语言返回给人。

Chat BI 的实质,就是自然语言 → SQL → 执行结果 → 自然语言,这本质上还是一种翻译。

但我们会发现一个很有意思的问题:很多企业说要上 Chat BI,但如果原本数据库和里面的业务逻辑、数据口径积累不足,甚至连人都写不出对应的 SQL 来,那自然语言也一样翻译不出来。因为后台本身没有可执行的基础。

所以我认为,企业里绝大部分在 Chat BI 上踩的坑,都来自于一开始就想做一个过于“宽”的东西。但是做了这个翻译之后,如果原来的系统 API 没准备好,数据没准备好,甚至连原来的人都无法执行这些操作,那自然语言翻译也没法落地。这就是最大的误区。

因此我们在内部的逻辑是:要先 Identify 原系统具备哪些能力。比如,如果你原来的 ODPS、数据库和数据中台本身已经有 BI 和运营,能够在某个领域里不断取数、用 SQL 分析数据,而且业务场景也很丰富,那么,那些高频的 SQL 语句才是真正值得作为翻译目标的部分,而不是盲目地去做一个 Chat BI。

所以很关键的是要分成两个部分 :一部分是翻译,一部分是原来系统的语言处理能力。我习惯这么来形容:原来的系统就是“蛋糕坯”,大模型翻译就是上面的“樱桃”。如果你现有的蛋糕坯是 ready 的,我放一个樱桃上去,你就可以吃樱桃蛋糕了。但是如果原来的蛋糕坯都没有,你让我做一个樱桃蛋糕,是做不出来的。

这里非常重要的一点是:要能够识别出原来的蛋糕坯是不是 ready ,然后在上面放上你的樱桃,而不是直接拿一个樱桃就装作是樱桃蛋糕。这个地方往往就是个误区。

翻译模式是“低垂的果实”,容易做,但里面其实有非常多的坑。

Agent 模式:关键在意图与知识空间

再说 Agent 应用模式

大家可以注意这样一句话:所有的 Agent 应用模式都是始于用户意图,终于意图满足

如果你不是从用户意图出发,最后又不是以是否满足客户意图来作为度量标准,去看待你的智能体,那一定会失败,没有任何成功的可能性。

这是我发现团队,甚至整个业界,最容易出现的问题。因此我们引出了一个方法,这是我在内部做智能体时,一定要去践行的方法。

第一件事情,要找到这个领域的“意图空间”。 当一个客户在智能体里和你交互时,他一定是带着意图的。那么这些意图都有哪些?比如客服场景里,客户会提出各种咨询问题,这些问题本质上就是一个空间、集合。所以,第一步就是要搞清楚这个集合的 边界和完整性。如果你不知道它的完整性,就无法去度量。只有在建立了完整的意图空间之后,才能继续往下做。

于是,第一件事要建立意图空间。然后,当清楚地知道了意图空间,就要基于这个意图空间来准备 知识工程。也就是说,你的知识、文档是否完备?API 和结构化数据是否具备?能否真正满足客户的这些意图?我认为这是最基础的必要条件。

再者,有了知识、意图空间,接下来才能带着意图去做评测。 因为既知道用户的意图,也掌握了知识,这样才能真正开展工作。如果意图不清楚、知识不具备,其实就是“空转”。

我们的经验是:在客服场景里构建意图空间,从原来就在满足意图的领域出发,从 工单 里去分析和构建意图空间。有了意图空间之后,就可以对意图进行分类。分类完成后,再根据不同类别去检查和补全知识,做好知识工程。

这样,当 意图空间 和 知识空间 都建立好了,才有可能开展评测,也才知道如何去度量你的 Agent。只有具备了度量能力,才有可能进一步做工程和算法迭代,这个是原理决定的。这也是我们在内部做智能体的一个必修课。

这里,简单总结一下两个模式: 翻译模式是樱桃,一定要先找到原来的蛋糕坯在哪里,再把樱桃放上去。如果蛋糕坯不 ready,只放个樱桃一定会失败。而 Agent 模式的关键则是:始于用户意图,终于意图满足。 这是一系列完整的逻辑方法。

Agent 落地要点:意图空间、品味 &评测

接下来,我们就展开讲这个稍微复杂一些的 Agent 模式,看看在业务体系里实现 E2E 落地的一些关键要点。

第一,意图空间的投入进行 ROI 评估。做一个 Agent,它的 ROI 高不高?这取决于意图空间的大小。如果工程所需的知识量庞大,意图也非常多、非常宽,那么所需要的投资就会非常大。意图空间越大,为满足这些意图所需要的知识、工程和迭代的投入也就越大。

所以有一个非常清晰的结论:第一件事情,就是要控制意图空间的规模。如果不控制规模,会导致失败,因为后续的投入很难支撑。这里要记住一句话:如何去控制一个智能体的意图空间?如果没有控制好,或者不清晰,那么 ROI 根本算不出来。而一个算不出 ROI 的项目,成功的可能性将大打折扣。

第二, 我们经常讲,最近大家肯定也听说过,在 AI 领域里经常提到一个词叫“品味”AI 时代里,品味非常重要。 那么品味来源于哪里?我自己猜测,要追溯到 1995 年乔布斯(Jobs)的一次采访。当时记者说:听说你比较粗暴、独裁,你怎么知道你的决定就是对的?乔布斯想了大约 10 秒,回答道:“归根结底,最后是品味决定的。”

品味和这一轮 AI 的关键问题——评测——高度相关。

这一轮和上一轮 AI 革命最大的区别在哪里? 

上一轮深度学习主要是计算机视觉。那时候的数据评测怎么做?一张图给猫、狗、交通灯、汽车、人等等打圈,数据打标就是这么来的。所以评测时,只需要看分类对不对(猫有没有被错分成狗?对了就好)。ImageNet 就是这样做的,李飞飞当年找了很多外包团队来做标注,这种标注工作很适合外包,找普通人就能做。原因很简单,猫狗识别不难,就算是一些专家领域,比如故障识别、次品检测,标注也相对容易。

但这一轮情况完全不同。

大模型的输入是小作文,输出也是小作文。在专业领域尤其如此,很难直接度量。这就是为什么要强调品味——因为没有标准答案。我们都是经历过高考的。高考作文有没有标准答案?没有。开放题,比如写一篇中心思想总结,有没有标准答案?也没有。

大模型的评测正是如此。所以,这一轮大模型最关键的区别在于:度量数据、评测没有标准答案。既然这是没有标准答案的,意味着成本最高,也就成为落地的瓶颈。 如何解决这个瓶颈?只能重投入

Agent 落地要点:如何做好「评测」 

当然,这里讲的“品味”,就是如何做评测的问题。 

我们怎么去评测?评测是一件非常重的事情,这包括业务效果的评测能力,也包括评测本身的工程化。

具体来说,在人工评测中,我们如何去解决分类的标准问题?什么是“好”,什么是“中”,什么是“差”?如何能够确保,评测对真实业务意图的覆盖度是足够的?如果覆盖度足够好,标准也足够清晰,我们又如何通过工程化的方式,对系统的迭代和变动进行自动化评测?

由于人工评测和度量,很多时候就像写一篇小作文,它是非标的,是没有标准答案的东西。相反,为什么现在编程发展很快?因为数学和编程都有标准答案,可以被编辑器校验,但是纯文本是没有标准答案的。

所以,评测这项工作非常耗时,也很容易成为整个项目的瓶颈,是需要极大加强的。如果不去加强,那么整个项目的基石就可能动摇。

在评测的过程中有一个非常重要的点,叫 E2E 归因。因为在智能体的过程中会有非常多的环节,在这么多工作流和智能体的编排逻辑中,如果一个意图没有被满足,我们必须要有能力确定这个 Bad case 的问题到底出在哪个环节。当每一个 Badcase 都应该归因到工程里的具体环节,才能对具体的原因进行聚类和改进。

如果从产品宏观功能体系来看,体系的最底层,必须要有两样东西:第一,是业务评测;第二,是全链路的归因分析能力。我把这两项放在最底层,就是因为它们太重要了。

下图这是个大概率的经验总结,也就是说,如果具备度量能力,会发现 大部分问题都出现在数据层面,出现在非结构化、结构化数据 API。如果基本能力不具备,这就是智能体失败的主要原因。部分问题可能出现在知识预处理、意图识别、上下文检索,以及后续的意图识别总结等环节。数据极为重要,但没有评测也就谈不上数据。

引出一个经常被讨论的问题:是否需要引入模型训练?

我们的观点非常明确:必须在白盒方式下使用基模 API,注重评测和数据,并进行 E2E 归因迭代。只有当数据质量和评测能力具备时,才能引入训练。

原因很简单,如果数据和评测能力不 Ready,投入在训练上的每一分钱都是浪费。如果数据不够好,那就是“garbage in, garbage out”。这些问题,都不是训练本身能够帮助解决的。

而且,训练的周期长、成本高、迭代速度慢,如果没有能力评估训练结果的好坏,也没有足够的数据进行训练,这种投入是不明智的。因此,只有在必须使用训练,且基模无法解决问题时,我们才会引入预训练。

写在最后:AI+云的「大电梯」

最后,为大家回顾一下。

我们在阿里云内部推进 AI 转型,本质上是需要为业务提供 Result as a Service(RaaS)。我们也是当前时点为数不多的,能够真正大规模实现 E2E 落地,给业务交付结果的实践团队。 

而我们实现 Result as a Service 的方法叫 RIDE,RIDE 分别代表 Reorganize、Identify、Define 和 Execute。

需要特别注意的是,在必要条件上再努力,也解决不了充分条件的问题,所以这个 RIDE 方法论的核心是在提醒大家:只有把落地所需要的充分条件补齐,才能真正开展 AI 企业有效落地的工作。

呼应最开始讲的“电梯”,想表达的是,冰山之上,我带着团队一直在做业务的数字化转型,之所以能够实现,是因为冰山之下,有强大的阿里云作为底座。

无论是涵盖通义千问在内各种模型服务的 MaaS 百炼,还是 PAI,ODPS,数据库等 PAAS 服务、或是底层 IaaS 比如 ECS、灵骏、存储、网络服务,都是我们依赖的企业应用的有力支撑武器。而且,这些能力的成本在不断下降,功能也在持续拓展。

所以,当企业选择了一个强大的技术底座,随着技术水平的增长和成本的下降,企业的数字化转型也就能够搭上一部更好的“电梯”。我自己认为,阿里云就是这样一部“大电梯”,企业上云后,这部电梯持续为企业实现数字化转型,提供源源不断的上升动力。

据麦肯锡发布的《The state of AI in 2025》全球调研报告揭示,88% 的企业已在至少一个业务职能中常规使用 AI(如 IT、营销、知识管理),但 62% 仍处于实验或试点阶段,仅有少量实现企业级的规模化部署。我们可以理解为,当下企业的 AI 落地正呈现“高采用、低价值”的典型特征,多数企业卡在试点到规模化之间。

麦肯锡《The state of AI in 2025》报告

AI 应用进入深水区,竞争的核心已经转向规模化的落地能力,而非技术本身。这也指向一个重要问题:当下的 CIO 群体,想真正实践 AI 大模型在企业的有效落地,实现规模化价值,要化解过程中的诸多坑点与难点。

本文整理自阿里云智能集团副总裁、 CIO 蒋林泉在 AICon 2025 年 8 月所分享的 “阿里云大模型应用落地实践之路”,并完整呈现他对企业 AI 落地的经典方法论“RIDE”和数字人案例。文中,通过规模化上线的 28 个数字人的成功实践经验,分享从组织共识挑战、业务机会识别,到 AI 指标衡量,再到产品工程落地的体系化思考,以蒋林泉的第一视角,解析企业 AI 真实落地的系统路径。

第一视角观察

这是我自担任阿里云 CIO 三年以来,第一次对外发表演讲。此次分享浓缩我过去三年在阿里云带领团队推进数字化与智能化进程中沉淀的案例与经验。

在担任 CIO 之前,我主要负责阿里云飞天核心系统的产品和研发工作,当时对外的演讲内容更多围绕飞天和阿里云的产品,角色也更偏向于“乙方”的产研身份。而今天,以阿里云 CIO 的身份首次对外演讲,更多是站在“应用开发者”的角度,分享如何在企业内部场景中推进数字化和智能化落地的一些实践与体会。

阿里云智能集团副总裁、 CIO 蒋林泉

过去两三年,我带领团队致力于推动 AI 大模型在企业各类场景中的落地应用,在这个过程中有很多感触。想先谈一下,在这个阶段里的一些观察和思考。

在当今时代,我们常常会思考一个问题:一个人或者一个组织发展得这么好,到底是时代的原因,还是自己努力的原因?其实最主要还是时代的原因。我们能够发展到今天,很大程度上是因为坐在了一个很好的“电梯”。比如搭上了中国这个电梯,中国互联网的电梯,以及我所在的阿里巴巴这个平台的电梯。平台本身发展得很好,在上面自然也发展得很好。

换句话说,在电梯里做俯卧撑,还是在平地上做俯卧撑?两者达到的高度是不一样的。个人努力固然重要,但更重要的是平台。我认为,在这个时代,AI 就是那个最大的电梯。无论是组织还是个人,有没有搭上 AI 这趟电梯,将直接决定在未来能够达到的高度。

ARK INVEST 报告

根据 ARK INVEST 以往的一份调研报告预测,到 2030 年,算力性能相较于现在将增长 1000 倍。这是什么概念?在 AI 时代之前,我们常常讲摩尔定律,技术性能大约每 18 个月翻一番。而在 AI 时代,技术发展的速度被极大地加快了。如果不能及时搭上 AI 这趟高速电梯,大概率会落后于时代。

基于这样的认识,我们发现,无论是企业还是个人,都开始逐渐意识到 AI 的重要性。意识到这一点后,许多企业,包括 CEO 和业务部门,开始变得焦虑起来。

这就涉及到,这一轮科技革命与以往的科技革命最大的不同之处

在整个信息技术产业中,无论是 PC 互联网还是移动互联网时代,技术在企业中的应用过程是一个渐进的过程,非常循序渐进。那个时候,企业的 CEO 看到业界的炒作、厂商的炒作,都比较冷静,可以慢慢来。

然而,这一次的情况却截然不同。我觉得这是第一次,企业 CEO 和业务部门比 IT 团队、比供应商还“上头”。因此,我们可以说,现在企业内部最大的矛盾,就是业务部门在社交媒体、PR 渠道里看到的 AI,往往呈现出一些“炸裂”、“梦幻”的效果,而 IT 部门或者说 CIO,在实际生产力上的发展却是不均衡、不充分的。这种矛盾体现得非常突出

在阿里巴巴集团内部,以及我与业界几十位 CIO 交流的过程中,观察到,在企业内部,这种现象大量存在。企业中会涌现出很多 Idea,做出很多 Demo,上线很多技术平台,一个团队里,恨不得要搭好几套 Dify 平台,各种智能体平台都在搭建。但是,在这些过程中,还是技术主导比较突出,更多是拿着平台去做 Demo,业务方的参与往往比较浅层。这类现象在企业里是比较过剩的,可以说整个企业都充斥着类似的情况。

与此同时,我在企业中普遍观察到,很多方面的投入都严重不足:是否真正深入到业务本身去做价值识别,或去正确地定义产品,以及如何开展知识工程(注意,这里我们不再仅仅是传统的软件工程,而是知识工程),还有我们强调的业务专家知识动员。

因此,我们认为,如果要在企业里真正用好 AI,并且产生实际的业务结果,就要做非常大的投入。恰好,在这个领域,我们做了很多探索和实践。

阿里云企业大模型应用实践落地

接下来,想向大家展示阿里云内部企业 AI 大模型业务落地的全景图。

在这张图中,我们可以看到很多“数字人”,无论是在阿里云的官方网站、CRM(客户关系管理系统)、业务支撑系统,还是在内容管理系统、人事管理系统中,这些数字人都已经广泛地落地应用,并在原来的业务中发挥真实的效果。

在过程中,我们已经落地了大约 28 个数字人项目,从中挑几个有代表性的例子来分享,让大家更有体感。

AI 翻译数字人

大家都知道,翻译是大模型非常擅长的事情。

但在阿里云,我们遇到过很大的挑战。作为一家公共云服务提供商,为客户提供服务时,文档的作用至关重要( ToB 的服务非常依赖文档)。阿里云拥有 300 多个产品,十几万篇文档,涉及上亿文字。其中有一个非常大的痛点在于“出海”,我们要出海到日本、美国、欧洲、印尼,还有土耳其,而我们的开发者要高度依赖文档,来操作云计算服务。

问题在于,我们缺乏既懂本地语言,又懂云计算的人才,技术类的翻译必须同时具备这两方面的能力。但即使有足够的资金,也很难招聘到这样的人才。过去,我们只能选择“忍”,仅翻译了英文文档,以及部分日文文档,而其他语言的翻译工作基本停滞不前,这也导致海外开发者的反馈不佳。

在这一轮 AI 技术突破之前,我们尝试过用传统 NLP 来做翻译,但效果根本不行。到了 ChatGPT 3.5 版本,我们发现自然语言处理技术,仍然无法满足我们的需求。而到了 ChatGPT 4 版本,我们再次尝试发现,翻译质量终于能和那些“既懂技术又懂本地语言”的专业译者打平。

而且,当时也做了计算(时间在一年多前),每篇文档的翻译成本,仅为当初专业技术翻译团队的 1/200。从那时起,我们开始大量使用大模型进行翻译工作,到现在,我们已经完成了印尼语的全部翻译工作。这意味着,解决了原本靠资金也无法解决的组织问题。

如果用专业的评分来看,过去,用懂本地语言、懂技术的专业翻译团队来翻译,评分大约为 4.12 分(满分 5 分)。现在,我们用 AI 来翻译,评分能够达到 4.68 分。在海外市场,我们发现海外网站的用户体验以及 NPS(净推荐值)都得到了显著提升。因此,这不仅仅是一个成本问题,更是通过 AI 解决了过去无法解决的难题。

技术文档验证数字人

刚才提到,阿里云有十几万篇文档,覆盖三百多个产品。其中,有一半是操作指南和解决方案,客户需要完全依照这些文档进行操作。

这里一个很大的问题是:传统 IT 产品可能是半年或一年一个版本,文档和产品可以同步开发。但我们是互联网模式的 IT 系统,我们的情况是,线上功能不停迭代,功能的迭代和我们文档的一致性,就要实时保证。

原来,也是依赖外包团队进行文档验证和测试,由于“带宽”限制,只能解决中文文档的验证问题。每六个月会把所有文档“跑”一遍,去验证它们和线上功能是否一致,经常会发现有很多版本不一致的问题。但这个过程本身就有很大问题:首先一轮验证就需要六个月时间,当第一个月验证并修复好的内容,到第六个月,验证可能又变得不一致了。原来,我们一直没能把这个问题解决,导致客户经常会遇到功能与文档不符而操作不下去的问题,这就要求我们提供最新内容。

现在我们是怎么做的呢?用 AI 来模拟这个过程:它会左边打开技术文档,右边操作浏览器里同步打开阿里云网站,然后严格按照文档里的步骤进行操作。过程中,AI 一旦卡住或无法继续,就大概率意味着文档和实际功能不匹配。虽然少数情况是云产品控制台本身的问题,但绝大部分的确是文档与功能不一致。当 AI 发现不一致时,它会立刻把不一致的“单拎”出来,并自动创建一个 Aone 需求单。

我们后续还有一个“文档修复数字人”,它会“接手”这个 Aone 需求单,分析实际情况与文档描述的差异,并做修复。然后,它会把这个修复好的文档,给到我们 technical writer 做确认,确认后就能上线了。

这之后,过去需要六个月才能完成一轮的验证工作,现在只要一个星期。同时,我们现在也把这套验证机制应用到日文、英文以及其他语种上,确保国际站的功能和文档也能保持一致。

过去靠人工验证时,一致率到底是多少?验证质量好不好?覆盖度够不够?这些其实都是一个“unknown”的状态。而现在,一切都变得清晰、可量化了

网站 AI 助理数字人

第三个案例是网站 AI 助理。阿里云有几百万客户,那我们的自服务模式是怎样的呢?

我们来看一组数字:每天大约 97% 的客户访问阿里云,都是通过自助操作,只有 3% 的客户会选择“提工单”。而在这 3%的客户中,百分之七八十的任务也还是由自己解决的,只有极少数最终会变成需要人工介入的工单。所以,我们的客户绝大部分是自服务的

但即便如此,由于我们的客户基数太大,这“漏”进来的一小部分工单,依然需要我们服务团队投入大量人力去处理。在这些工单里,有一半都属于“咨询工单”。什么是咨询工单呢?就是客户遇到问题直接提问,我们的小二在后台查文档、翻知识库(Knowledge Base),找到答案再回复给他。这类工单纯粹是信息问答,不涉及操作。

这类工单主要有几个问题:第一是一半的工单服务成本很高,第二是个时效问题。我们统计过,过去一个咨询工单的平均关闭时间,绝大部分要到 5 个小时左右。也就是说,一个客户平均想要解决这种咨询问题,需要花费大量时间才能解决。

网站 AI 助理上线后,大量的咨询问题已经由 AI 直接回答了,而平均响应时间是 10 秒左右。

目前,我们正在和服务团队合作,与服务团队共同承担全年工单降量,我们一起努力,希望通过 AI 在网站自服务的深入应用和渗透来实质拓展服务带宽,更重要的是,能够一起提升阿里云的客户服务体验。

智能电销辅助数字人

刚才讲的是服务,探讨了如何帮助客户解决咨询工单和自助诊断的问题,把服务体验提升了。现在来看另一个场景:销售

阿里云要服务上百万的企业,无法对每一家企业都用直销的方式去覆盖。因此,我们有很大一块业务是面向中小企业(SMB),通过电话销售来帮助我们客户实现售前咨询,以及售前购买的问题。

电话销售小二的日常工作,主要分为话前、话中、话后三个环节。话前: 小二需要做计划,规划当天要打哪些电话、了解客户的商机、准备话术,并排好优先级。需要这样一个准备过程,才能保证一天的工作有序高效;话中: 就是与客户的实际沟通;话后: 需要复盘,记录通话小结,整理哪些需要 follow-up,哪些需要申请折扣。需要处理的问题都要记下来,这样才能闭环到后续的业务处理,形成一个完整闭环。

现在,我们在这三个环节都提供了 AI 数字人。

● 在“话前”,由 AI 来完成通话计划,包括怎么打,话术是什么。过去小二自己排计划要花半个多小时,现在一上班,计划就已经生成好了,可以直接开工。

● 在“话中”,我们提供了一个智能辅助提醒。当小二与客户通话时,系统会根据对话内容,在工作台右侧实时提醒他如何回答,比如客户在说他想要这个,建议你这么回答。目前已经在辅助小二去解答客户非常复杂的一些云计算咨询问题。目前话中提示小二的采纳率已经达到了 50%

● 在“话后”,像通话复盘、撰写小记、follow up,包括后续的通话质检,这些工作都交给了一个自动化的 AI 数字人来完成。

通过这种方式,我们的小二可以从繁杂的事务性工作中解放出来,集中精力在真正的销售沟通上,大幅拓宽了我们销售的服务带宽。同时,AI 的智能计划、实时辅助和后续复盘,也极大地提升了我们服务客户的质量。

智能质检数字人

AI 应用到电话质检之前,这几乎是一个原理上无解的事情。

原来我们大规模的外呼电话作业过程,是非常难被知晓的。比如中间过程是否按照公司的作业规范进行?与客户的沟通是否足够礼貌?更有时候,有的外呼人员可能会把客户引导到私下公司去联系、去成交。但原来,我们是很难去做这个电话质检的,因为这是语音作业,很难管理。

而现在,我们用 AI 把所有的电话语音全部智能化,从而识别里面所有的这些问题,再通过统一的质检标准,就能够得到一个规模化的质检。于是,这个 AI 质检能够大规模地提升我们的服务质量与效率,覆盖全量业务场景,关键还能控制我们的业务风险(避免产生额外的风险)。

可以说,这件事我们原来几乎是无法搞定的,因为原来是靠抽样,也就是人工抽样去听那些电话录音,如果抽样抽到了问题,再去一个个处罚,但效率是非常非常低的。它的抽样完整性、抽样覆盖度都几乎是没法被使用的(覆盖度仅有 2%),不同质检员的判断差异也很大,对人力的消耗也很厉害。所以,现在通过 AI 质检数字人,能够让覆盖度提升到 100%,质检的准确率也远高从前,带来的最终效果是非常好的,这使得整个服务质量能够规模化地提升上去

智能外呼数字人

刚才我们讲到 AI 如何辅助做事,这里则是一个能直接进行智能外呼的数字人。

众所了解,云计算本身是非常复杂的,如何招聘到足够多的外呼坐席人员,让他们既具备相关技能,又熟悉云计算知识,同时还能够耐心地每天坐在工位打一天的电话,这对我们来说是一个巨大的痛点。因为招聘和能力培养难度很大,人员流动率非常高,这使得无论是销售服务,还是电话服务的质量,都存在明显的短板。

本质来看,这是一个短线影响业务增长,长线影响服务满意度与企业品牌塑造的问题。

我们在前期已经有一定的知识积累,包括语音、多模态等方面的经验,因此,我们通过 AI 的方式直接引入智能外呼。它直接上场,与我们的客户沟通,挖掘销售商机,交付给服务团队去做主动的服务

目前,在潜在客户的线索清洗、免费试用、转生产、以及产品即将到期的续费提醒等主动外呼场景中,这个数字人已经上线运行了。目前,我们还在开发场景包括产品到期的主动关怀、NPS 调研等,上线后,预计可以拓展出“能交付结果的”上百个 HC 的服务带宽。

数字 AI 客服的外呼,还有些不一样的特征。首先,它可以灵活、快速地按需扩容,而且,它的声音可以做得更甜美,也可以做得更有情商。更重要的是,在技术的不断加持下,这个 AI 小二解决问题的能力,可能已经超过了原来人类员工的平均水平,而且还在不停地提升。目前,我们的智能外呼数字人可以像“金牌销售”一样工作,非常接近真人体验。未来会有更多的想象空间,让它能够更好地服务阿里云客户,提升我们的服务质量。

直销辅助数字人

分享了很多电销案例,这里谈谈“直销”场景。

在阿里云的直销业务中,我们面临着一个核心挑战:销售如何变得更加专业和高效,促进公司业绩增长?在实际工作中,我们的销售团队遇到了两大业务痛点。

第一个痛点:云计算销售要求高、招聘难、培养成本高。

云计算销售不仅需要具备良好的客户拓展能力,还需要深入理解云计算技术与行业应用场景。复合型人才稀缺,招聘难度大、周期长,新人从入门到胜任,需要经历数月的培训与实战积累,培养成本居高不下。

第二个痛点:销售运营专业服务带宽不足。

销售运营、数据 BI、财务、法务等运营中台的服务带宽,无法充分支撑前线销售需求,难以及时响应每一位销售人员的专业支持诉求。

为了解决这些问题,我们将整个销售流程分为“拜访前”和“拜访后”两个关键环节,在每个环节都提供 AI 数字人的全方位支持。核心围绕销售作业的有效性展开,让直销过程实现“在线化”,全面提升销售过程的辅助效率。

拜访前:销售“一键”获取客户“谈参”,了解客户用云信息、技术类型、解决方案、竞对情况等全面画像。过去,销售自己从各渠道去查询要花 1 个多小时,现在,10 分钟就能查询到,而且信息质量更优、内容更全面,有效促进了与客户 key person 的高质量拜访。

拜访后:我们提供 AI 对拜访过程的全方位复盘,包括商机要点是什么,客户对阿里云品牌表现出的情感倾向是什么,建议后续怎么推进客户成单。

通过 AI 软硬结合的优势,我们让直销的销售过程实现“在线化”,高质量拜访小记达到 100%全面覆盖,新销售也能通过高质量在线信息资产快速学习,上手周期缩短 50%,大幅降低新人培养成本。

这种方式,相当于拓展数百位专业销售运营为销售团队“贴身辅助”,销售人员得以从繁琐的流程性工作中解放出来,能够更专业、更高效地服务客户,大幅提升了销售有效性,有力促进了公司业绩增长。

合同风险审核数字人

ToB 业务的一大特征,是有大量的政企和大客户,他们通常不会使用我们的标准合同。这些合同金额巨大,需要进行严格的风险审核,涵盖财税法、风控、信控等多个方面的风险。

过去,要完成这样的风险审核,我们需要专业的法务、财务等领域的精英人士,他们大多来自国际四大会计师事务所。然而,鉴于我们业务规模庞大,不可能招聘到足够多的精英来从事这项工作。因此,我们在合同风险审核方面遇到了巨大瓶颈,审核时间过长,最长甚至可达 5 个月,平均也需要两周到一个月。这极大地拖累了业务效率,包括服务大客户的效率。

为了解决这一问题,我们培养了一大批“数字人”,包括财务数字人、信控数字人和法务数字人。并且,把这些数字人送到合同撰写端,让他们在销售和客户沟通、合同拟定的瞬间,就能够实时识别潜在风险并提示谈判方案,而不是等到审核端后才发现问题,再回过头去处理。

合同审核端,我们通过审核标准数字化、专家经验数字化,用统一的标准执行,极大提升了准确率。而 AI 也正是实现知识工作线下流程线上化的体现。

通过 AI 技术,我们不断拓展中后台的服务带宽,解决商业拓展流程中的效率瓶颈。后续,我们也期望它在风险拦截上的能力,能够持续提升。

员工服务数字人

为什么特别提到员工服务数字人?

因为大型企业里,HR 系统有一个显著特征,就是非常分散。比如请假、体检、福利、在职证明等,各式各样的流程和服务都散落在不同的系统里。与此同时,各类政策也同样分散,包括公司内部的福利政策、外部的人才政策等等。

员工在需要获取这些信息或使用这些系统时,会遇到两个难点:第一,这些服务是低频使用的;第二,它们分散在不同地方,获取难度非常大。由于是低频服务,无法配备一个庞大的服务团队来支持,所以 HR 团队的负担很重,而员工的服务体验也不足。

为了解决这一问题,我们将这些低频、分散的服务全部整合到一个智能体中,通过钉钉平台打造了一个“云小宝”(数字人),为员工提供统一的智能服务

我们发现,通过引入智能体,折算下来相当于节省或新增了几十名员工在为大家服务。更重要的是,员工的体验得到了极大提升,比如,我们服务员工的响应时长已经从平均 7.2 分钟缩减到 5 秒。再比如,员工只需要用自然语言输入,如“下周一请假”、“国庆前后两天请假”或“为父亲预约体检”,系统就能迅速响应并完成操作。

面试智能辅助数字人

还有一个场景,我们聊聊招聘。

首先,我们对外招聘,核心是描述我们需要什么样的人。从这个角度出发,前置是 OKR,我们通过 AI 分析每个部门日常在做什么,目标是什么,根据日常目标和事情,去看清楚招聘的 JD(职位描述)是不是合理

再者,从 JD 开始,根据岗位要求,再结合当前的候选人简历信息,在面试的时候就会生成面试计划。面试时,结合岗位要求,面试官应该问哪些问题?根据最佳实践,怎么去考察候选人?这些专业问题在面试前,已经帮面试官提供好。面试中,通过对话过程,发现应该追问哪些问题,以及面试后,怎么总结面试过程中候选人是不是 qualified 这个岗位。

通过 AI,我们可以更结构化、体系化地来做这件事,使得面试过程管理,面试质量,以及对面试人评价的客观性,都得到很大的提升。这也彻底改变了原来仅仅通过电话形式的面试,因为它的过程是一个黑盒逻辑,而“黑盒”最大的问题是无法提升过程的质量,包括保持长期的、闭环的有效性。

对一家公司来说,招聘是件非常严肃的事情,我们经常讲,如果招错一个人,会导致后面的事情是非常糟糕的。所以本质上来讲,面试智能辅助数字人,提升了我们整个组织在招聘进人方面的有效性。这不只是效率问题,而是能够规模化促使我们在面试过程中的专业性、面试评价的专业性得到质的提升。

28 个数字人全面上岗,真正产生业务价值

目前,我们有二十几个场景实现了数字人的智能化服务,这里只是挑选了 10 个来举例。

这些数字人应用背后的评估衡量,有一个共同逻辑:

一是折算拓展了多少人力;

二是业务效率提升了多少;

三是业务效果提升了多少。 

我们非常注重这一结构,因为每一个数字人上线落地,都必须衡量其对原来业务是否真正拓展了服务带宽 ,并且,是否比原来人工操作的效率和效果更好,这是非常关键的,与外界所谓的众多智能体最大的区别,就在于此。

这些智能体最终都是在对应的岗位上实际工作的。在我们的 HR 系统中,这些数字人被分配到对应的业务部门,向对应的业务团队汇报工作,与我们从外部招聘的员工没有任何区别。所以,它们必须在对应的岗位和业务团队中,发挥超过一定人数的实际任务执行作用,才能真正融入团队。

在我们的钉钉系统以及内部工作系统中,这些数字人与普通员工一样,拥有工号和头像。唯一的区别在于,它们的工号以“AI”开头,如 AI001、AI002,目前我们已经有大概 28 个智能体上线,后续还有更多智能体在排队等待上线。

当然,在过去两年,带领团队推进业务落地的过程中,我也深刻体会到,真正将技术应用于业务并取得成效,没有那么简单。特别是,真正在业务中产生价值和仅仅做出一个 Demo 之间,是天壤之别。

接下来,想和大家进一步分享,我们在这一过程中遇到的困难,以及总结出的一些解决方法,希望能对大家有所帮助。

大模型 E2E 落地坑点与解法 —— RIDE

大家可能听过红杉提出的一个概念叫 RaaS,即“结果即服务”。这一概念的核心在于,如果仅仅提供工具和产品,让企业自行落地是不够的。所以,我们特别重视真正上线,并产生业务结果的项目。

我作为 CIO 所带的团队,在企业内部为业务部门提供的,就是这种 “以交付结果为导向的服务”。在推进 RaaS 的过程中,也总结出一套方法论,叫 RIDE

RIDE 包括四个关键步骤:Reorganize(重组组织与生产关系)、Identify(识别业务痛点与 AI 机会)、Define(定义指标与运营体系)、和 Execute(推进数据建设与工程落地)。

首先是 Reorganize。在 AI 时代,新的生产力下,原来的生产关系是非常不适应新生产力的发展,这种不适应会在每个毛孔里面表现出来,然后阻碍 AI 的发展和落地,所以要求我们要重新调整生产关系。第二,是 Identify。也就是我们需要精准地识别出企业中哪些问题适合用 AI 来解决,这要求我们首先明确问题的定义,然后结合 AI 的能力和业务需求,确定哪些问题可以通过 AI 得到有效的解决。然后是 Define。在明确了问题和 AI 的能力之后,我们需要精准地定义产品及其运营指标,进行准确的指标跟踪。最后才是 Execute。执行阶段是一个金字塔结构,上面是业务目标,下面是工程数据和评测,中间是工程应用算法。

当然,这套我们称之为 RIDE 的方法论,并非在做 AI 转型的第一天就有了,而是在二十多个智能体真正有效落地业务的过程中,我们发现,如果不遵循方法论中的这些步骤,项目很可能会失败。遵循这些步骤,虽然不能保证 100% 的成功,但至少可以提高成功的概率。这是一套用两年时间、用血泪经验总结出来的方法。

Reorganize |重组组织与生产关系

书同文、车同轨 :AI 时代的通识教育

我们首先从 Reorganize 开始讲。

在落地第一年,我发现了一个问题:无论是业务团队还是我们自己的团队,对大模型的能力边界、发展程度、具体原理等基本概念的理解都存在差异,甚至在我自己的团队,产品经理、算法、工程团队内部都无法拉齐概念认知。

为了解决这一问题,我们发起了一个行动,叫 “书同文、车同轨”。 我们要求全员参加 AI 大模型的认证培训。最主要的原因,是要解决大家在基本功和认知逻辑上的差异。我称之为 “AI 时代的通识教育”,相当于要在团队里重新走一遍“高中的教育”

这一培训分为两类:大模型 ACA 认证(面向非技术人员)、 大模型 ACP 认证(面向技术人员),因为我们不仅需要技术人员之间能够对齐话语,也希望非技术人员和技术人员对齐话语。

这种通识教育对于团队的协作至关重要,首先在我们 CIO 线内部已经完成了全员的认证,后面,我们的业务方,也就是我们的财务、人力、销售、中后台等都在做 全员认证

目前,整个阿里巴巴集团都在用这个方法来做 AI 转型的基础教育,重新建立大家的基础认知。不然就会出现这种情况:大家都在谈论同一个概念,但其实理解的内容和现实完全不同。如果没有做过深入工作,很难体会到那种无力感,一旦通过通识教育统一认知,沟通效率就会显著提升。

阿里云大模型 ACA 认证:

https://edu.aliyun.com/certification/aca13?spm=a2cwt.28380597.J_1564692210.17.28813487dUqGKW

阿里云大模型 ACP 认证:https://edu.aliyun.com/certification/acp26?spm=a2cwt.28380597.J_1564692210.18.28813487dUqGKW

「企业免费体验」大模型认证:https://edu.aliyun.com/learning/topic/llm-free-trial

这样的基础上,又设计了两个比赛。一个是产研提效比赛,一个是业务提效比赛。和其他大赛最大的不一样,我们的比赛是真正以 E2E 为衡量标准的。 

比如产研比赛,我们要看的,是原来 E2E 同样粒度的一个需求,需要多少“人月”完成,而现在能减少到多少人月。而不是看代码采用率,因为代码采用率很容易“灌水”,而且它往往只能补全那些最容易写的代码,最难的代码可不容易补全。

在业务 E2E 方面,我们的比赛就是要真正进入业务场景,帮助业务去拓展,而且效果和效率都要超过原来。所以,这两件事非常重要,第一,是做“书同文,车同轨”的通识教育,因为 AI 时代的知识在不断发生巨变,每个月都在变,现实的实践知识和原来的基础知识都有大量的不同;第二,是“以赛促练”,整个组织通过正确目标下的比赛,大家会发现短板,发现相互之间可以学习的地方,就能够激发组织不断地去创新、去提效。

数字员工 :业务方与 IT 方 联合培养

再说说我们的数字员工

有一个非常关键的安排:我们的这些数字人最后都是汇报给业务部门的。这不仅关乎形式,更重要的是心理。我们不能让业务部门觉得,AI 技术会威胁到他们的工作,而是要让他们明白,AI 技术是来帮助提效的。如果这个关系没处理好,就会遇到无数的暗礁。

所以,我们把自己定位为数字人供应商,业务部门是 AI 先进组织,业务部门可以雇佣我们的数字员工,并与我们一起联合培养。 这样,业务部门会更愿意接受 AI 技术,减少阻力。所以这是第一点,我们把自己退到一个外包供应商的位置上。

第二点,我们还发现,AI 数字员工是不能扛责任的,也不能给它打“3.25”(低绩效)。这意味着,数字员工在系统里执行任务出了问题,谁来承担的问题。我们将 AI 数字员工汇报到业务部门,属于业务部门的人(让他们放心),并一起参与 AI 员工的培养过程,同时数字员工也会受到正式员工的监督,来承担相应业务领域的责任。

定标准 :AI 要与人比,不与“神”比

另外,我们经常听到一句话:ToC 还好,但 ToB 的大模型有幻觉,做不到 100% 正确。但实践经验告诉我们,其实人也有幻觉,而且人的幻觉还很大。如果认真看,在很多任务里,人其实也是不靠谱的,也经常会失败,只是企业没发现而已。

我们强调的一点是:如果 AI 项目和业务部门真正达成了共识,并且通过培养逐步磨合,就必须认真回头来看,AI 的要求标准到底是什么?

如果要求 100% 正确,其实就是把 AI 拿来和“神”比。但如果是和原来人做事的效果和准确率去对比,那就是和“人”比。所以,追求比人做得更好、更准,才是真正有意义的对标

那怎么避免和“神”比呢?回到前面所说,解决生产关系的问题,处理好内部业务的逻辑、目标和关系,这样才能真正实现 AI 和人比,而不是和“神”比。

在整个 Reorganize 的过程中,我们还发现,要把数字人汇报到业务部门,对 HR 部门来说,这就等同一个“正式员工”。注意,我们是真的把它当作正式员工来看待的,用它能否产出真正的业务结果来度量。

所以我们在内部与 CPO(HR 负责人)沟通时,讨论过:怎么去度量 AI 数字人是否真的发挥了一个正式员工的效果?最后,我们确定了一个方向:AI 数字人必须有一个目标,就是在原有具体的业务流程里,接管一个重复且有价值的任务,并且能够折算出“相当于拓展出多少人力”,这就是唯一的目标。

但要 真正让数字员工上线、上岗,必须满足两个标准条件: 一是数字人执行原来任务的效率,一定要比原来提升一定百分比,一定要比原来执行任务的人效率高;二是数字人执行任务的效果,同样,也要比原来提升一定百分比。只有当数字人做到效率高、效果好时,才能“正式上岗”,进入业务部门工作。

Identify |识别业务痛点与 AI 机会

从三个特征,挖掘 AI 机会

刚才讲的是 Reorganize,如果不解决 Reorganize 的组织问题就会不断遇到暗礁,甚至没法往前走。但解决了组织的问题后,业务部门会说,好,我们来联合培养数字员工。那从哪里开始呢?

所以第一件事就是业务机会的识别(Identify)

这轮 AI 革命的核心其实是 LLM(large language model),所以,我们在内部有一个逻辑:所有以 language 为中心的工作,都将被大模型深刻影响。比如电销、客服、招聘、OKR、文档、翻译、合同审核,还有研发类的 C language、Java language、SQL language 等,这轮以 language 为中心的工作受影响最大。所以第一个特征是 Language 类 工作。

第二个特征是被重复执行、规模化执行。因为 AI 是自动化的,越大规模、越重复的任务,AI 越有机会去做。第三个特征是,如果本身缺人,甚至有人投诉效率低,那这个地方就是个大的机会。

这三个特征,是我们与业务部门一起来 Identify,识别哪些业务是可以着手的。这也是我们在内部形成共识后,如何去识别机会、定义机会的关键点。因为只有把问题定义清楚了,后面做事才会顺畅。如果解决错了问题,那投入就白白浪费了。

数字员工,以“单任务”为核心换算

另外,我们刚才讲到,数字员工要在对应的任务里拓展目标,也就是拓展对应岗位的人力,实际面对各种场景具体怎么处理,又怎么核算?

我们的经验是,首先,有些“单任务岗位”,比如技术翻译,我们是按字收费的,那么,AI 翻译一个字多少钱,就可以直接线性替换了。一个人一天的产能可能是翻译 2 万字,那我们就差不多折算成 “2 万字的产能”等同于“一个人”。

如果是“多任务岗位”,比如产品经理,他一会儿做 PRD,一会儿分析工单,一会儿画 Demo,一会儿又去客户那里访谈。这种多任务岗位,我们发现往往有些任务是重复的、繁琐的,也不是高价值的。为了提效,非常适合将这些低价值任务,拆分成一个个“单任务岗位”,如工单分析岗位、产品原型设计岗位等,让数字员工去做。

这样,原岗位上的人就从繁琐工作中卸载出来,可以聚焦在更高价值的主线工作上,他们的幸福感也会爆棚。在换算方面,最终也都是”以单任务岗位为核心进行 HC 换算”,逻辑清晰明了。

这种方式原先主要是由外包承接,但受制于外包员工管理难度大、成本构成多、招聘周期长、稳定性低、用工风险高、能力上限低(薪资因素)等诸多原因,多方面都受到约束,无法大面积展开。当我们有了数字员工之后,自然解锁了这些约束, 这件事就变得更加切实可行。 

Define |AI 的产品度量与运营度量

准确率是 AI 产品核心

过了 Identify 这一步,下面就是 Define

这个时代和以前做产品有很大不同。我们前面提到的一些产品大多都类似,比如都有交互、体验。在这个流程里,其实和上一轮移动互联网的产品没有区别。但 AI 产品有一个特别关键的点,就是“准确率”。 当然,除了准确率之外,还有响应时效性和安全合规等非功能性指标,比如在电销过程中,和客户实时对话,延迟必须非常低,不然客户会觉得交流效率不高,像机器人说话一样。

因此,实时性和准确性非常关键。如果准确性不够好,客户根本无法使用,也根本不可能真正上岗。所以,准确率是 AI 项目的第一核心指标,整个项目组都必须盯住它,这也是产品定义中最核心的部分,必须重新去 Redefine

运营与产品指标「协同度量」,才不掉坑

此外,运营指标同样至关重要。如果只有产品指标和准确率指标,那大概率会掉到“坑里”。即使是在对内的业务项目里,原来移动互联网那些基本功也不能丢,比如:

  • DAU(每日活跃用户数);

  • 用户提问数;

  • 渗透率,即目标客户的覆盖率;

  • 留存率(最关键)。

如果同一个客户今天用了,下周还愿意继续用,说明这个 AI 智能体真正帮他解决了问题。如果客户只用了一次就不再回来,那么无论前面的产品指标再漂亮,都没有意义,那可能就是定义错了问题。运营指标就是用来兜底的,如果不紧盯这些指标,很容易让产品、工程和算法团队陷入“自嗨”。什么叫自嗨?就是他们说“我的指标很好”,结果客户根本不用。

举个例子,在阿里云官网的 AI 助理中,我们就设定了这样的度量方式。

如下图所示,左图展示了准确度的度量指标,时间线大约覆盖从去年到今年的一年时间。蓝色区域代表表现良好的部分(精准解决了客户的咨询问题和任务),黄色区域为中等水平(虽解决了任务,但伴有大量无关信息),红色区域则是表现差劲的部分(回答与客户问题完全不相关)。中间图展示了 DAU 和客户问题数,右图则是留存率。

目前,我们的留存率实际上已经达到了一个相当高的水平(PPT 中并未刷新数字)。从图中可以清晰看到,随着准确度的持续提升,DAU 和留存率也在稳步上升。但是反之,如果 DAU 和留存率始终停滞不前甚至下滑,即使你的工程和算法团队声称准确率很高,那无疑是自欺欺人的。

实际上,很多工程算法团队成员,可能并未意识到上述这一点。之所以能明确指出,是因为在左图的准确度指标上,我也曾经被多次误导,但这也并非团队有意为之。在如今的信息环境中,随便搜索公众号就能发现大量类似“用这一招,你的准确率能提升到 95%”的文章,但这些文章往往存在误导性,它背后都有一个前提条件,即在某个狭窄的小场景下,准确率能够达到 95%,然而在面对海量问题时,这一指标却难以提升(这一点稍后会详细分享)。

Execute |推进数据建设与工程落地

掌握「产品研发工程金字塔」

定义好了产品和运营指标(Define),往下走才是执行(Exectute)阶段。

Exectute 阶段的关键在于:一定要用产品和业务目标来拉动。因为在牵引拉动的过程中,才能充分动员领域知识专家的参与和评测。 

如果没有知识专家的深度参与和强大的评测能力,大模型的应用上限是很难提升的,这是第一点。第二,如果项目目标缺乏价值,或者没有真正的痛点,那么会发现得不到资源的“祝福”。也就是说,一方面难以获得其他团队的配合,另一方面自身团队的价值感也难以维持,这将直接影响项目的推进。

在整个执行逻辑中,金字塔最下面是工程的数据与评测,我把这个放成最大的一块底座,因为这是基石——业务数据、业务 API 以及评测能力是大模型应用的基础,对这一部分的投入必须充足。

在这一基础上,才是工程应用算法、预训练(Pre-training)、RAG 以及微调等等,这些在媒体报道里面出现的技术热词,并非不重要,但这些只是 “必要条件”。我观察到,大多数产研团队在这部分(工程 - 应用与算法)投入了 80% 至 90% 的时间。

但想强调的是:这些只是必要条件,仅靠这些无法解决企业 E2E 落地的问题。哪怕你在必要条件上投入再多,再加 10 倍的努力,也无法实现真正的 E2E 落地。因此,必须设法补齐真正实现 E2E 落地所需的充分条件。 如果无法做到这一点,项目成功的希望将十分渺茫。

常见的 LLM AI 应用范式:翻译、Agent

在与业务团队沟通以及处理各种复杂问题的过程中,我们总结出了几种常见的模式: 首先是基础设施层面,涉及知识和数据的构建;中间是编排和调度,无论是大家熟悉的工作流编排,还是智能体自主规划编排,或是两者的结合;最上面是对客的产品与运营。

这里,重点讲述图中深蓝色部分的两种模式:第一个是翻译模式,第二个是 Agent 模式,我认为主要分为这两种典型的应用模式。其中,翻译模式最容易取得成效,因为它相对简单;而智能体模式则较为复杂。

翻译模式:关键在“蛋糕坯”

先谈谈翻译模式。 在公司内部,我们将所有翻译类模式统称为 AI 领域的“低垂果实”,这类模式相对容易实现。

这一轮的大型语言模型背后的算法是 Transformer。Transformer 最早是 Google 为了翻译任务而开发,在不停做翻译的过程中衍生出了 Transformer 算法。随后,预训练模型如 BERT 也大量应用于翻译领域。所以,大模型的原理 Transformer 特别擅长做翻译。

翻译又可以分为狭义翻译广义翻译

狭义翻译指的是中译英、英译中等语言之间的转换。而广义翻译则涵盖更广泛的形式,比如:自然语音转成文本,再转成语音;自然语言转成 SQL 语言;自然语言转成 Java 语言;甚至让一篇论文用自然语言“翻译”成中学生能听懂的表述,这些都属于广义翻译范畴。无论是狭义翻译还是广义翻译,Transformer 都特别擅长,因此这是最容易出结果的地方。

这里有一个坑: 虽然(图中)左边的翻译能力已经具备,但如果右边原有的系统还没准备好(not ready),就会出现问题。

以 Chat BI 来说,为什么 Chat BI 在企业里没什么成功的案例呢?其实很大一部分原因在于,Chat BI 的逻辑无外乎就是:用自然语言翻译成 SQL,然后在后台的数据库或大数据系统里执行,再把执行结果取出来,再翻译成自然语言返回给人。

Chat BI 的实质,就是自然语言 → SQL → 执行结果 → 自然语言,这本质上还是一种翻译。

但我们会发现一个很有意思的问题:很多企业说要上 Chat BI,但如果原本数据库和里面的业务逻辑、数据口径积累不足,甚至连人都写不出对应的 SQL 来,那自然语言也一样翻译不出来。因为后台本身没有可执行的基础。

所以我认为,企业里绝大部分在 Chat BI 上踩的坑,都来自于一开始就想做一个过于“宽”的东西。但是做了这个翻译之后,如果原来的系统 API 没准备好,数据没准备好,甚至连原来的人都无法执行这些操作,那自然语言翻译也没法落地。这就是最大的误区。

因此我们在内部的逻辑是:要先 Identify 原系统具备哪些能力。比如,如果你原来的 ODPS、数据库和数据中台本身已经有 BI 和运营,能够在某个领域里不断取数、用 SQL 分析数据,而且业务场景也很丰富,那么,那些高频的 SQL 语句才是真正值得作为翻译目标的部分,而不是盲目地去做一个 Chat BI。

所以很关键的是要分成两个部分 :一部分是翻译,一部分是原来系统的语言处理能力。我习惯这么来形容:原来的系统就是“蛋糕坯”,大模型翻译就是上面的“樱桃”。如果你现有的蛋糕坯是 ready 的,我放一个樱桃上去,你就可以吃樱桃蛋糕了。但是如果原来的蛋糕坯都没有,你让我做一个樱桃蛋糕,是做不出来的。

这里非常重要的一点是:要能够识别出原来的蛋糕坯是不是 ready ,然后在上面放上你的樱桃,而不是直接拿一个樱桃就装作是樱桃蛋糕。这个地方往往就是个误区。

翻译模式是“低垂的果实”,容易做,但里面其实有非常多的坑。

Agent 模式:关键在意图与知识空间

再说 Agent 应用模式

大家可以注意这样一句话:所有的 Agent 应用模式都是始于用户意图,终于意图满足

如果你不是从用户意图出发,最后又不是以是否满足客户意图来作为度量标准,去看待你的智能体,那一定会失败,没有任何成功的可能性。

这是我发现团队,甚至整个业界,最容易出现的问题。因此我们引出了一个方法,这是我在内部做智能体时,一定要去践行的方法。

第一件事情,要找到这个领域的“意图空间”。 当一个客户在智能体里和你交互时,他一定是带着意图的。那么这些意图都有哪些?比如客服场景里,客户会提出各种咨询问题,这些问题本质上就是一个空间、集合。所以,第一步就是要搞清楚这个集合的 边界和完整性。如果你不知道它的完整性,就无法去度量。只有在建立了完整的意图空间之后,才能继续往下做。

于是,第一件事要建立意图空间。然后,当清楚地知道了意图空间,就要基于这个意图空间来准备 知识工程。也就是说,你的知识、文档是否完备?API 和结构化数据是否具备?能否真正满足客户的这些意图?我认为这是最基础的必要条件。

再者,有了知识、意图空间,接下来才能带着意图去做评测。 因为既知道用户的意图,也掌握了知识,这样才能真正开展工作。如果意图不清楚、知识不具备,其实就是“空转”。

我们的经验是:在客服场景里构建意图空间,从原来就在满足意图的领域出发,从 工单 里去分析和构建意图空间。有了意图空间之后,就可以对意图进行分类。分类完成后,再根据不同类别去检查和补全知识,做好知识工程。

这样,当 意图空间 和 知识空间 都建立好了,才有可能开展评测,也才知道如何去度量你的 Agent。只有具备了度量能力,才有可能进一步做工程和算法迭代,这个是原理决定的。这也是我们在内部做智能体的一个必修课。

这里,简单总结一下两个模式: 翻译模式是樱桃,一定要先找到原来的蛋糕坯在哪里,再把樱桃放上去。如果蛋糕坯不 ready,只放个樱桃一定会失败。而 Agent 模式的关键则是:始于用户意图,终于意图满足。 这是一系列完整的逻辑方法。

Agent 落地要点:意图空间、品味 &评测

接下来,我们就展开讲这个稍微复杂一些的 Agent 模式,看看在业务体系里实现 E2E 落地的一些关键要点。

第一,意图空间的投入进行 ROI 评估。做一个 Agent,它的 ROI 高不高?这取决于意图空间的大小。如果工程所需的知识量庞大,意图也非常多、非常宽,那么所需要的投资就会非常大。意图空间越大,为满足这些意图所需要的知识、工程和迭代的投入也就越大。

所以有一个非常清晰的结论:第一件事情,就是要控制意图空间的规模。如果不控制规模,会导致失败,因为后续的投入很难支撑。这里要记住一句话:如何去控制一个智能体的意图空间?如果没有控制好,或者不清晰,那么 ROI 根本算不出来。而一个算不出 ROI 的项目,成功的可能性将大打折扣。

第二, 我们经常讲,最近大家肯定也听说过,在 AI 领域里经常提到一个词叫“品味”AI 时代里,品味非常重要。 那么品味来源于哪里?我自己猜测,要追溯到 1995 年乔布斯(Jobs)的一次采访。当时记者说:听说你比较粗暴、独裁,你怎么知道你的决定就是对的?乔布斯想了大约 10 秒,回答道:“归根结底,最后是品味决定的。”

品味和这一轮 AI 的关键问题——评测——高度相关。

这一轮和上一轮 AI 革命最大的区别在哪里? 

上一轮深度学习主要是计算机视觉。那时候的数据评测怎么做?一张图给猫、狗、交通灯、汽车、人等等打圈,数据打标就是这么来的。所以评测时,只需要看分类对不对(猫有没有被错分成狗?对了就好)。ImageNet 就是这样做的,李飞飞当年找了很多外包团队来做标注,这种标注工作很适合外包,找普通人就能做。原因很简单,猫狗识别不难,就算是一些专家领域,比如故障识别、次品检测,标注也相对容易。

但这一轮情况完全不同。

大模型的输入是小作文,输出也是小作文。在专业领域尤其如此,很难直接度量。这就是为什么要强调品味——因为没有标准答案。我们都是经历过高考的。高考作文有没有标准答案?没有。开放题,比如写一篇中心思想总结,有没有标准答案?也没有。

大模型的评测正是如此。所以,这一轮大模型最关键的区别在于:度量数据、评测没有标准答案。既然这是没有标准答案的,意味着成本最高,也就成为落地的瓶颈。 如何解决这个瓶颈?只能重投入

Agent 落地要点:如何做好「评测」 

当然,这里讲的“品味”,就是如何做评测的问题。 

我们怎么去评测?评测是一件非常重的事情,这包括业务效果的评测能力,也包括评测本身的工程化。

具体来说,在人工评测中,我们如何去解决分类的标准问题?什么是“好”,什么是“中”,什么是“差”?如何能够确保,评测对真实业务意图的覆盖度是足够的?如果覆盖度足够好,标准也足够清晰,我们又如何通过工程化的方式,对系统的迭代和变动进行自动化评测?

由于人工评测和度量,很多时候就像写一篇小作文,它是非标的,是没有标准答案的东西。相反,为什么现在编程发展很快?因为数学和编程都有标准答案,可以被编辑器校验,但是纯文本是没有标准答案的。

所以,评测这项工作非常耗时,也很容易成为整个项目的瓶颈,是需要极大加强的。如果不去加强,那么整个项目的基石就可能动摇。

在评测的过程中有一个非常重要的点,叫 E2E 归因。因为在智能体的过程中会有非常多的环节,在这么多工作流和智能体的编排逻辑中,如果一个意图没有被满足,我们必须要有能力确定这个 Bad case 的问题到底出在哪个环节。当每一个 Badcase 都应该归因到工程里的具体环节,才能对具体的原因进行聚类和改进。

如果从产品宏观功能体系来看,体系的最底层,必须要有两样东西:第一,是业务评测;第二,是全链路的归因分析能力。我把这两项放在最底层,就是因为它们太重要了。

下图这是个大概率的经验总结,也就是说,如果具备度量能力,会发现 大部分问题都出现在数据层面,出现在非结构化、结构化数据 API。如果基本能力不具备,这就是智能体失败的主要原因。部分问题可能出现在知识预处理、意图识别、上下文检索,以及后续的意图识别总结等环节。数据极为重要,但没有评测也就谈不上数据。

引出一个经常被讨论的问题:是否需要引入模型训练?

我们的观点非常明确:必须在白盒方式下使用基模 API,注重评测和数据,并进行 E2E 归因迭代。只有当数据质量和评测能力具备时,才能引入训练。

原因很简单,如果数据和评测能力不 Ready,投入在训练上的每一分钱都是浪费。如果数据不够好,那就是“garbage in, garbage out”。这些问题,都不是训练本身能够帮助解决的。

而且,训练的周期长、成本高、迭代速度慢,如果没有能力评估训练结果的好坏,也没有足够的数据进行训练,这种投入是不明智的。因此,只有在必须使用训练,且基模无法解决问题时,我们才会引入预训练。

写在最后:AI+云的「大电梯」

最后,为大家回顾一下。

我们在阿里云内部推进 AI 转型,本质上是需要为业务提供 Result as a Service(RaaS)。我们也是当前时点为数不多的,能够真正大规模实现 E2E 落地,给业务交付结果的实践团队。 

而我们实现 Result as a Service 的方法叫 RIDE,RIDE 分别代表 Reorganize、Identify、Define 和 Execute。

需要特别注意的是,在必要条件上再努力,也解决不了充分条件的问题,所以这个 RIDE 方法论的核心是在提醒大家:只有把落地所需要的充分条件补齐,才能真正开展 AI 企业有效落地的工作。

呼应最开始讲的“电梯”,想表达的是,冰山之上,我带着团队一直在做业务的数字化转型,之所以能够实现,是因为冰山之下,有强大的阿里云作为底座。

无论是涵盖通义千问在内各种模型服务的 MaaS 百炼,还是 PAI,ODPS,数据库等 PAAS 服务、或是底层 IaaS 比如 ECS、灵骏、存储、网络服务,都是我们依赖的企业应用的有力支撑武器。而且,这些能力的成本在不断下降,功能也在持续拓展。

所以,当企业选择了一个强大的技术底座,随着技术水平的增长和成本的下降,企业的数字化转型也就能够搭上一部更好的“电梯”。我自己认为,阿里云就是这样一部“大电梯”,企业上云后,这部电梯持续为企业实现数字化转型,提供源源不断的上升动力。

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

刚刚运营的北京通州站位于地下,为了充分利用自然光,屋顶采用了透光的膜结构,上方还有一个风帆形状的保护架。(via

中国 AI 大模型领导者在想什么

上周六(1月10日),北京有一场"AGI-Next 前沿峰会",由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者,很多都出席了。

  • 唐杰:清华大学教授,智谱创始人
  • 杨植麟:月之暗面 Kimi 创始人
  • 林俊旸:阿里 Qwen 技术负责人
  • 姚顺雨:OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法,网上有发言实录

内容非常多,有意思的发言也很多,下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年,我们开始研究,能不能让机器像人一样思考,当时就从清华成果转化,在学校的大力支持下,成立了智谱这么一家公司,我现在是智谱的首席科学家。

那个时候,我们实验室在图神经网络、知识图谱方面,在国际上做的还行,但我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力,我教它一点点,它就能举一反三。就和人一样,教小孩子的时候,我们总希望教三个问题,他就会第四个、第十个,甚至连没教过的也会。怎么让机器拥有这种能力?

目前为止,我们主要通过 Scaling(规模化)达到这个目标,在不同层面提高泛化能力。

(1)我们最早期用 Transformer 训练模型,把所有的知识记忆下来。训练数据越多、算力越多,模型的记忆能力就越强,也就是说,它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。比如,你问中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

(2)第二层是把模型进行对齐和推理,让它有更复杂的推理能力,以及理解我们的意图。我们需要持续的 Scaling SFT(Supervised Fine-Tuning,监督式微调),甚至强化学习。通过人类大量的数据反馈,不断 Scaling 反馈数据,可以让模型变得更聪明、更准确。

(3)今年是 RLVR(强化学习与可验证奖励)爆发年。这里的"可验证"是什么意思?比如,数学可以验证、编程可能可以验证,但更广泛地,网页好不好看,就不大好验证了,它需要人来判断。

这就是为什么这个事情很难做,我们原来只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。

如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事:新范式的开始

大家可能会问,是不是不停地训练模型,智能就越来越强?其实也不是。

2025年初,DeepSeek 出来,真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来,而且性能确实很强,一下子让很多人感到很震撼。

我们当时就想一个问题,也许在 DeepSeek 这种范式下,Chat(对话)差不多算是解决了。也就是说我们做得再好,在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点,变成有情感的 Chat,或者再复杂一点,但是总的来讲,这个范式可能基本到头了,剩下更多的反而是工程和技术的问题。

那么,AI 下一步朝哪个方向发展?我们当时的想法是,让每个人能够用 AI 做一件事情,这可能是下一个范式,原来是 Chat,现在是真的做事了。

当时有两个方向,一个是编程,做 Coding、做 Agent;另一个是用 AI 来帮我们做研究,类似于 DeepResearch,甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多,很多人问这是为什么?

这起源于2023年8月3日,我们开源了一个小模型,它是我们内部用来做实验的 1.8B 模型。我们做预训练,资源毕竟有限,你做实验的话不能通通用 7B 的模型来验,就拿 1.8B 的来验。

当时我的师弟跟我说,我们要把这个模型开源出去。我非常不理解,我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?他跟我说 7B 很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果 1.8B 开源出去的话,很多同学就有机会毕业了,这是很好的初心。

干着干着,手机厂商跑来跟我们说 7B 太大,1.8B 太小,能不能给我们干一个 3B 或 4B 的,这个容易,没有什么很难的事情。一路干下来,型号类型越来越多,跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的,不仅仅是服务开发者或者服务科研人员,而是能不能做一个 Multimodal Foundation Agent(多模态基础智能体)。

我特别相信这件事情,2023年的时候大模型是一个大家都不要的东西,多多少少有那么几分大炼钢铁的成分,多模态是我们从那时就一直想做的事情。

为什么呢?我们觉得如果你想做一个智能的东西,天然的应该是 Multimodal(多模态),当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。我懒得吵这个架,人有眼睛和耳朵可以做更多的事情,我更多的考虑是 Foundation(基础智能体)有更多的生产力,能不能更好地帮助人类,毫无疑问我们应该做视觉,我们应该做语音。

更进一步,我们要做什么东西呢?Omni 的模型(全模态模型)不仅仅是能够理解文本、视觉、音频,我们可能还让它生成文本、音频。今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C(消费者模型)和 To B(商业用户模型)发生了明显的分化。

大家一想到 AI,就会想到两个东西,一个是 ChatGPT,另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说,大部分人大部分时候不需要用到那么强的智能,可能今天的 ChatGPT 和去年相比,研究分析的能力变强了,但是大部分人大部分时候感受不到,更多把它当作搜索引擎的加强版,很多时候也不知道该怎么去用,才能把它的智能激发出来。

但对于 To B 来说,很明显的一点是智能越高,代表生产力越高,也就越值钱。所以,大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月,我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元,每天要做10个任务,一个非常强的模型可能10个任务中八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。

所以,在 To B 这个市场上,强的模型和稍微弱点的模型,分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是,基础模型和上层应用,到底是垂直整合,还是模型应用分层,也开始出现了分化。

比如,ChatGPT Agent 是垂直整合,Claude(或者 Gemini)+ Manus 是模型应用分层。过去大家认为,当你有垂直整合能力肯定做得更好,但起码今天来看并不一定。

首先,模型层和应用层需要的能力还是挺不一样的,尤其是对于 To B 或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好,或者让这样的模型有溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现,其实在 To C 的应用上,垂直整合还是成立的,无论 ChatGPT 还是豆包,模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值?我们发现,很多时候需要的是额外的 Context(上下文)。

比如,我问 AI 今天该去吃什么?其实,你今天问 ChatGPT 和你去年问或者明天问,答案应该会差很多。这个事情想要做好,不是说你需要更大的模型、更强的预训练、更强的强化学习,而是可能需要更多额外的输入,或者叫 Context。如果它知道我今天特别冷,我需要吃些暖和的,我在今天这样的范围活动,可能我老婆在另一个地方吃什么等各种各样的事情,它的回答就会更好。

回答这样的问题,更多需要的是额外的输入。我和老婆聊了很多天,我们可以把聊天记录转发给元宝,把额外的输入用好,会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话:中国 AI 的未来

李广密(主持人):我想问大家一个问题,在三年和五年以后,全球最领先的 AI 公司是中国团队的概率有多大?我们从今天的跟随者变成未来的引领者,这个过程到底还有哪些需要去做好?

9、姚顺雨的回答

我觉得概率还挺高的,我挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

(1)中国的光刻机到底能不能突破,如果最终算力变成了瓶颈,我们能不能解决算力问题。

(2)能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

(3)更重要的是主观因素,我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说,有没有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题,理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异。比如说,美国的 Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是 OpenAI 还是什么,他们大量的算力投入到的是下一代研究当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的算力,这会是一个比较大的差异。

这可能是历史上就有的问题,创新是发生在有钱的人手里,还是穷人手里。穷人不是没机会,我们觉得这些富哥真的很浪费,他们训练了这么多东西,可能训练了很多也没什么用。但今天穷的话,比如今天所谓的算法 Infra(基础设施)联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。

未来可能还有一个点,如果从软硬结合的角度,我们下一代的模型和芯片的软硬结合,是不是真的有可能做出来?

2021年,我在做大模型,阿里做芯片的同学,找我说能不能预测一下,三年之后这个模型是不是 Transformer,是不是多模态。为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴,我都不知道!但我今天还在阿里巴巴,它果然还是 Transformer,果然还是多模态,我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,是不是穷则思变,创新的机会会不会发生在这里?

今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神,一个很典型的例子是当时电动车刚出来,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情,但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

三年到五年后,最领先的 AI 公司是一家中国公司的概率,我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认,无论是做研究,尤其是企业界的 AI Lab,和美国是有差距的,这是第一点。

我们做了一些开源,可能有些人觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。

但我觉得,现在慢慢变得越来越好。

(1)90后、00后这一代,远远好过之前。一群聪明人真的敢做特别冒险的事,我觉得现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

(2)咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。

(3)回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。如果我们笨笨的坚持,也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日,湖北制造的载人飞艇祥云 AS700,完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行,可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米,最大载客量9人。由于载客量太小,不可能用作常规的交通工具,只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机,结果因为手指带水无法触控。

他灵机一动,发明了戴在鼻子上的触控笔。

它的结构很简单,就是一个石膏纤维的鼻管,里面插着一支触控笔。

这个发明看上去很有用,可以解放双手,也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令,禁止不可跳过的广告,将于2026年2月15日起生效。

法令规定,视频广告的等待时间必须在5秒以内,否则观众可以选择跳过。而且,关闭方式应该是清晰简便的,禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到,越南互联网值得叫好。

文章

1、我所有的新代码都将闭源(英文)

作者是一个开源软件贡献者。他感到,自己的开源代码都被大模型抓取,导致仓库访问者减少,进而也没有收入,所以他后面的代码都要闭源。

2、网站的视觉回归测试(英文)

本文介绍如何使用 Playwright,对网页进行视觉测试,看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis(英文)

Redis 是最常用的缓存工具,作者介绍它的痛点在哪里,怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条(英文)

一篇 CSS 初级教程,介绍四个简单的技巧,让网页不会出现水平滚动条(即避免溢出)。

5、消息队列原理简介(英文)

本文是初级教程,介绍消息队列(mesage queue)的概念和作用。

6、macOS Tahoe 的圆角问题(英文)

macOS 最新版本 Tahoe 加大了圆角半径,造成调整窗口大小时经常失败。作者认为,从操作角度看,圆角面积最好超过端头的50%。

工具

1、whenwords

本周,GitHub 出现了一个奇特的库,没有一行代码,只有一个接口文档。

用户需要自己将接口文档输入大模型,并指定编程语言,生成相应的库代码再使用。

以后会不会都是这样,软件库没有代码,只有接口描述?

2、Hongdown

Markdown 文本的格式美化器,根据预设的规则,修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器,会自动显示多个时点的视频缩略图,便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。(@hoochanlon 投稿)

6、Flippy Lid

一个实验性软件,把 macbook 铰链开合作为输入,可以玩 Flippy Lid,也可以作为密码解锁。(@huanglizhuo 投稿)

7、Jumble

nostr 网络的开源 Web 客户端,专门用来浏览以 feed 内容为主的 relay 节点。(@CodyTseng 投稿)

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。(@wangrongding 投稿)

9、SlideNote

开源的 Chrome 浏览器插件,在侧边栏做笔记,支持跨设备自动同步。(@maoruibin 投稿)

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板,提供实时统计、PV 过滤、IP 归属地、客户端解析。
@likaia 投稿)

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用,自动从 arXiv 抓取每周的热门 AI 论文,通过 NotebookLM 生成视频讲解,并能发布到抖音。(@brianxiadong 投稿)

2、CC Switch

一个跨平台桌面应用,一键切换 Claude Code / Codex / Gemini CLI 的底层模型,以及完成其他的管理设置。(@farion1231 投稿)

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单,进行总结。(@immotal 投稿)

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段,该字段记录了一段文本,只要发上区块链就永远不会删除和修改。(@blueslmj 投稿)

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目,交互式哺乳纲演化树,探索哺乳动物2亿年的演化。(@SeanWong17 投稿)

图片

1、冰下修船

俄罗斯有一个船厂,位于北极圈附近。每年冬天,船坞都要结冰。

为了冬天也能修船,船厂会把冰层凿掉一块,露出船底。

冰层通常不会那么厚,不会结冰到船底,必须分层凿开。工人先用电锯,锯开最上层的冰层,然后等待下面的河水结冰,再用电锯向下切割,反复多次,直到船底结冰。

有时,需要凿开一条很长的冰槽。

下图是工人进入冰层下方,检修船底,由于冰下工作条件恶劣且有危险性,工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何?

我很高兴这样,因为我把这看作是我一生努力的延续:民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件,并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而,这项技术太重要,绝不能只掌握在少数公司手中。

-- Antirez,Redis 项目的创始人

2、

即使你不相信 AI,但跳过它对你和你的职业都没有帮助。

以前,你熬夜编程,看到项目顺利运行时,心潮翻滚。现在,如果你能有效利用 AI,可以建造更多更好的项目。乐趣依旧存在,未受影响。

-- Antirez,Redis 项目的创始人

3、

如果你不写作,你就是一个有限状态机。写作时,你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆(Manuel Blum),图灵奖得主

4、

人们陷入困境有三个主要原因:(1)行动力不足,(2)行动方向错误,(3)等待天上掉馅饼(幻想问题会缓解而拒绝采取行动)。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则(#334)

YouTube 有多少个视频?(#284)

AI 聊天有多强?(#234)

政府的存储需求有多大?(#184)

(完)

引言:唐杰、杨植麟、林俊旸、姚顺雨聚会:AI 发展的共识和差异;“死了么”APP 爆火,开发者:用户数翻了 50 倍,尚不准备改名;消息称微软本月将启动新一轮大裁员,规模达 1.1 万至 2.2 万人;字节实习生全面涨薪,最高涨幅达 150%;马斯克:X 平台将于七天内开源其算法;消息称约翰・特努斯成库克头号苹果接班人,曾主导 iPhone Air 项目;OpenAI 预留 500 亿美元员工股权激励池;王腾官宣创业:核心成员来自小米、华为,薪资福利基本看齐大厂;京东将推出全年龄段人群 AI 玩具……

 

行业热点

唐杰、杨植麟、林俊旸、姚顺雨聚会:AI 发展的共识和差异

 

在近日的 AGI-Next 前沿峰会上,唐杰、杨植麟、林俊旸、姚顺雨等行业标杆人物,与张钹院士共同勾勒出大模型发展的新图景,围绕技术突破、行业分化、范式变革与中国 AI 的未来展开了一场思想碰撞。

 

在技术发展的核心议题上,各位领军者达成了“突破现有瓶颈、迈向多元智能”的共识。智谱创始人唐杰直言,中国开源大模型虽成果斐然,但与美国闭源大模型的差距可能仍在拉大,行业需保持清醒认知。他提出,大模型的下一阶段应借鉴人脑认知过程,重点突破三大能力:多模态“感统”能力,实现视觉、声音、触感等多源信息的统一感知;构建全人类“第四级记忆”,解决模型记忆与持续学习不足的问题;探索反思与自我认知,挖掘大模型自主意识的可能性。2026 年,智谱将聚焦架构创新、多模态感统等方向,推动 AI 进入长任务场景并实现具身智能,同时预判今年将成为 AI for Science 的爆发年。

 

月之暗面 Kimi 创始人杨植麟则从 Agentic 时代的技术架构切入,强调提升 token efficiency 与实现 long context 的双重重要性。他认为,前者能以更少 token 达到同等效果,后者可突破传统架构局限,支撑复杂 Agent 任务,二者结合方能实现更高水平的代理智能。更具启发性的是,他提出智能具有“非同质化”属性,未来的技术升级不仅是算力的堆砌,更关乎“品味”——即对 AI 价值观与形态的深层理解,这种差异性将催生出更多新颖应用场景。面对 AGI 潜在风险,杨植麟秉持开放态度,认为 AGI 是提升人类文明上限的关键工具,应在风险可控的前提下持续迭代突破。

 

通义 Qwen 技术负责人林俊旸则将目光投向物理世界,提出打造 Multimodal Foundation Agent 的愿景。他认为行业发展“殊途同归”,全模态模型与具身推理是核心方向,Agent 将从数字世界走向物理世界。林俊旸描绘了具体的落地场景:数字特工可实现 GUI 操作与 API 调用,物理特工则能完成斟茶倒水等实体交互动作,这种从虚拟到现实的延伸,为 AI 应用开辟了广阔空间。

 

作为压轴嘉宾,张钹院士从旁观者视角给出了深刻洞见。他指出,大模型当前擅长跨领域泛化,但落地应用需实现跨任务泛化,重点解决分布外、长尾场景的泛化难题,具体应推进多模态、具身交互、结构化知识对齐等六大方向。在人机关系上,他大胆质疑“机器必须与人类对齐”的传统认知,认为人类存在固有缺陷,无需让 AI 完全复刻;而 AI 治理的核心,不应是约束机器,而是规范研究者与使用者的行为。值得关注的是,张院士一改以往态度,鼓励最优秀的学生投身创业,认为人工智能时代的企业家应承担起将知识、伦理与应用转化为通用工具的使命。

 

圆桌对话环节,嘉宾们围绕行业分化、范式变革、Agent 战略与中国 AI 的胜算四大议题展开深度探讨。腾讯首席科学家姚顺雨从跨中美视角指出,To C 与 To B 场景的模型需求已分道扬镳:To C 用户对强智能需求有限,To B 领域则呈现“智能即生产力”的鲜明特征,模型强弱分化将愈发明显。在范式变革方面,姚顺雨提出自主学习已实际发生,只是尚未形成颠覆性感知;唐杰则预判 2026 年将出现新范式,单纯依靠扩算力、扩数据的 Scaling 模式已难以为继,创新是唯一出路。

 

关于中国 AI 的全球竞争力,嘉宾们既正视差距也保持信心。姚顺雨认为中国团队在快速复现与局部优化上具备优势,但缺乏敢于探索未知的“冒险家”;林俊旸坦言美国在算力投入上领先 1-2 个数量级,中国团队领先概率约为 20%,但“穷则思变”可能催生创新机会;唐杰则强调,凭借敢冒险的年轻一代、良好的发展环境与持续深耕的定力,中国 AI 有望在长期竞争中实现突破。

 

“死了么”APP 爆火,开发者:用户数翻了 50 倍,尚不准备改名

 

2026 年 1 月,郑州月境技术 3 人 95 后团队开发的 8 元付费 APP “死了么” 爆火,苹果付费软件排行榜登顶,用户数较此前翻 50 倍仍在上涨。据悉,该 APP 专为独居人群设计,2 日未签到即自动向紧急联系人发邮件,因名字有传播力、需求旺盛等爆火,团队表示暂不改名,计划上线短信提醒、留言等功能。

 

该软件不需注册登录,首次使用只需填写本人姓名与紧急联系人邮箱即可。每天打开应用轻轻一点完成签到,后台自动监测状态。系统有一个异常未签到自动通知的功能,如果用户连续 2 天没有在应用内签到,系统将于次日自动发送邮件告诉对方。

 

其背后公司名为月境(郑州)技术服务有限公司,2025 年 3 月份才成立,注册资本 10 万元。创始人之一小郭对媒体介绍,团队有 3 人,一位是朋友,一位是网友,都是 95 后。这款 APP 耗时 1 个月完成,开发成本约 1500 元。

 

据报道,“死了么”在 2025 年中旬上线,不过期间团队未花过多精力打理,在一个月前才做了一次更新。上线后很长一段时间里用户量很少,团队也不擅长营销,直到最近突然爆火,用户数达到之前的 50 倍,目前热度还在上涨。不过由于用户规模数能直接推导出团队收益,小郭表示,目前不便透露具体用户规模。

 

消息称微软本月将启动新一轮大裁员,规模达 1.1 万至 2.2 万人

 

1 月 7 日消息,据报道,微软公司计划于 2026 年 1 月启动新一轮裁员。预计全球范围内裁员规模将达到 1.1 万至 2.2 万人,约占其全球约 22 万名员工总数的 5% 至 10%。此次裁员预计将在 1 月第三周实施。有员工透露,微软 Azure 云团队、Xbox 游戏部门以及全球销售部门将是裁员的重点领域。截至目前,微软尚未证实该计划。微软在 2025 年尽管全年营收与利润保持稳健态势,该公司仍通过多轮裁员削减了超过 1.5 万个岗位。

 

与此同时,微软正加大对人工智能系统的投入力度。仅在 2026 财年第一季度,其资本支出就高达 349 亿美元(现汇率约合 2441.36 亿元人民币)。该公司预计全年总支出将突破 800 亿美元(现汇率约合 5596.24 亿元人民币),超过 2025 财年水平。这笔资金的大部分将用于数据中心、芯片及人工智能工具的建设与研发。分析师认为,受此战略调整影响,微软正将资金从人力成本转向长期技术资产投资。因此,中层管理人员及传统产品团队将面临更高的裁员风险。

 

字节实习生全面涨薪,最高涨幅达 150%

 

1 月 5 日,有消息称字节跳动实习生全面涨薪,覆盖技术、产品、运营等多个岗位,薪资标准自 2026 年 1 月 1 日起正式生效。其中,技术类实习生日薪调整至 500 元,较此前上涨 25%。产品类岗位从每日 200 元提升至 500 元,较此前上涨 150%。此外,运营、设计、市场、职能、销售等其他岗位也均有不同程度涨薪,调整后日薪区间涵盖 100 余元至 400 余元。

 

需要注意的是,此次公布的涨薪标准主要适用于北上广深杭等一线城市。同时,具体薪资仍会根据岗位类型、所在业务线等因素有所区别,并非完全统一。通过查询招聘软件发现,目前北京地区的产品实习生日薪已调整为 500 元,运营、营销类实习生日薪则为 350 元/天。

 

据了解,字节跳动 2025 年 12 月发布面向全球员工的内部邮件,宣布继续加大人才投入,提高薪酬竞争力、提升期权激励力度。具体包括以下措施:增加奖金(含绩效期权)投入,2025 全年绩效评估周期相比上个周期提升 35%;大幅增加调薪投入,较上个周期提升 1.5 倍;提高所有职级薪酬总包的下限(起薪)和上限(天花板)。该公司表示,此举系为确保员工薪酬竞争力和激励回报在全球各个市场都“领先于头部水平”。

 

马斯克:X 平台将于七天内开源其算法

 

社交媒体平台 X 创始人埃隆・马斯克于周六表示,该平台将在七天内面向公众开源其新版算法,这一算法包含用于决定向用户推荐哪些帖文及广告的相关代码。“这项举措将每四周推行一次,同时会附上详尽的开发者说明文档,助力大家了解算法的具体更新内容。”身为 X 平台所有者的马斯克在该平台发布的一则帖子中如此表示。

 

消息称约翰・特努斯成库克头号苹果接班人,曾主导 iPhone Air 项目

 

1 月 9 日消息,报道称伴随着现任首席执行官蒂姆・库克年满 65 岁,且其本人有意减轻工作负荷,苹果公司已加速接班人计划,而约翰・特努斯再次被认为是接班热门人选。媒体援引博文介绍,现年 65 岁的库克向高层坦言感到疲惫,希望减轻工作负担。若库克决定卸任 CEO 一职,极有可能转任苹果董事会主席。在众多候选人中,现任硬件工程主管约翰・特努斯尽管行事低调,但已跃升为头号热门人选。特努斯现年 50 岁,这一年龄恰好与库克 2011 年接替乔布斯时的年龄相同。

 

知情人士透露,特努斯之所以脱颖而出,源于其在产品定义与商业利益间“穿针引线”的精准把控力。据内部人士回忆,2018 年前后,苹果为了提升摄影与增强现实(AR)体验,曾考虑在 iPhone 上引入一种微型激光(LiDAR)组件。然而,该组件高达 40 美元的单项成本将严重压缩利润。特努斯当时果断建议:仅在价格更高的 Pro 机型上搭载该组件。他认为,购买 Pro 系列的忠实用户更愿为新技术买单,而普通用户对此并不敏感。这一决策不仅保住了利润,也确立了产品分级策略。

 

针对外界关于其缺乏创新能力的质疑,Ternus 的支持者指出,他实际上深度参与了近年来多个关键产品的研发。值得注意的是,备受瞩目的 iPhone Air 以及即将面世的折叠屏 iPhone 均由他牵头主导。这些项目显示,Ternus 不仅具备卓越的执行力,在推动产品形态创新方面同样拥有实际战绩。此外在管理风格方面,特努斯被认为与库克高度相似。他于 2001 年加入苹果,以注重细节和深谙庞大的供应链网络著称。

 

OpenAI 预留 500 亿美元员工股权激励池

 

1 月 8 日消息,据外媒报道,人工智能公司 OpenAI 去年秋季设立了一项规模达约 500 亿美元的员工股票激励池,相当于公司当时估值的约 10% 股份,该估值基于 2025 年 10 月约 5000 亿美元 的公司估值水平。报道指出,此前 OpenAI 已向员工授予约 800 亿美元的已归属股权,本次新增的股票激励池与既有部分合计约占公司总股份的 26%。

 

在过去一年中,OpenAI 的估值经历了快速增长。2025 年年中公司通过一笔员工股份二级市场交易达到约 5000 亿美元估值,高于前一次由 SoftBank 等领投的 3000 亿美元融资轮。二级股权交易不仅为员工提供了变现渠道,同时也被视为衡量市场对 OpenAI 增长前景信心的一个指标。

 

这一大规模股权激励池反映了 OpenAI 在全球 AI 竞争中对人才吸引与保留的高度重视。在人工智能研发与产品商业化日益加剧的背景下,顶尖 AI 研究人员和工程师成为市场追逐的稀缺资源,竞争对手包括 Meta、Google 等科技巨头均提供了丰厚的股权激励条件。在行业快速发展与人才争夺日益激烈的背景下,OpenAI 的股权策略旨在通过高比例激励计划锁定核心技术人才,同时支持公司未来产品和业务长期增长。

 

王腾官宣创业:核心成员来自小米、华为,薪资福利基本看齐大厂

 

1 月 8 日,王腾在社交平台公布最近情况。王腾称,从小米离开后开始筹备创业,最近新公司已经成立,公司取名为“今日宜休”,目标是通过研发睡眠健康相关的产品,让大家能拥有更好的精力状态。王腾表示,目前已经组了一个初创团队,核心成员主要来自小米、华为等头部科技大厂。

 

王腾还放出招聘广告,重点招聘软硬件产品经理、 健康/AI 算法工程师、脑科学睡眠健康专家等岗位。王腾还解释为何选择睡眠健康、精力管理方向:1. 首先睡眠、精力已经成为每个人都关心的健康问题。2. 社会对睡眠的价值理解有待提升。3. 新时代下 AI 大模型发展迅速,让很多产品的体验能大幅提升。公开信息显示,北京今日宜休科技有限责任公司成立于 2026 年 1 月 6 日,由王腾持股 55%并担任法定代表人,注册资本是 100 万人民币,注册地址是北京市海淀区。

 

此前报道,去年 9 月 8 日,小米发布内容通报,原小米中国区市场部总经理、REDMI 品牌总经理王腾因泄密被小米公司辞退。11 月份,王腾发文称告别手机行业。他表示前段时间因为自己的问题离开小米,最近也有一些公司发来邀约,但综合竞业限制和个人兴趣的考虑,想跟手机行业说声再见了,愿还在这个行业的朋友们继续加油,期待更精彩的产品出现。王腾还透露 11 月开始准备尝试些新的赛道,大的方向是科技+健康领域,具体还在筹备中,“迎接新的挑战,正是闯的年纪。”

 

京东将推出全年龄段人群 AI 玩具

 

1 月 8 日消息,据媒体报道,京东成立“变色龙业务部”,全面承接 JoyAI App、JoyInside、数字人等核心 AI 产品的打造与商业化。报道称,全新的第二批 AI 玩具已在筹备中,此次新品将推出面向全年龄段人群的 AI 玩具,将于 1 月中旬全面上线。

 

值得一提的是,在 2025 世界人工智能大会(WAIC)期间,京东正式宣布旗下大模型品牌升级为 JoyAI,以及京东在大模型方向的技术进展和 JoyAI 应用全景图,同时也发布了全新的附身智能品牌 JoyInside。据当时介绍,JoyAI 大模型拥有从 3B 到 750B 全尺寸模型家族,且通过动态分层蒸馏、跨领域数据治理等创新技术,大模型推理效率平均提升了 30%,训练成本降低 70%。

 

此外,谈到 JoyInside,截至 2025 年 7 月,已有众擎、云深处、商汤元萝卜、火火兔、Fuzozo 等数十家企业已正式接入,覆盖人形机器人、四足机器人、儿童玩具、AI 潮玩等多类载体。另据京东官方披露,截止 2025 年 12 月,已有超 4.5 万家品牌接入数字人服务,数字人直播成本约为真人直播的 1/10,平均转化率提升约 30%。在 2025 年“双 11”期间,采用数字人直播的商家数量同比增长近 6 倍,全年累计带动商品交易总额(GMV)达数百亿元。

 

蚂蚁美团联手投了一家 AI 硬件创企,前美团硬件负责人带队

 

1 月 5 日,北京 AI 硬件创企 Looki 正式完成超 2000 万美元(约合人民币 1.4 亿元)A 轮融资,本轮由蚂蚁集团领投,美团龙珠、华登国际、中关村资本跟投,老股东 BAI 资本连续两轮超额追投,阿尔法公社、同歌创投持续加码。在完成本轮融资后,Looki 计划加快人才建设、模型迭代、产品研发及供应链整合,围绕 AI 原生硬件推进下一代交互设备的探索。

 

Looki 成立于 2024 年 5 月,截至目前已连续完成 4 轮融资。该公司由两位卡内基梅隆大学(CMU)的校友联合创办,CEO 孙洋曾任美团智能硬件负责人、Momenta 高级研发总监,是 Google Assistant 早期创始成员之一。CTO 刘博聪曾任美团自动驾驶算法负责人、Pony.ai 创始成员。团队成员来自清华大学、北京大学、多伦多大学、伊利诺伊大学、伦敦政经等知名院校,曾就职于 Google、Amazon、Qualcomm、字节跳动等公司,在 AI 算法、AI 产品、硬件工程等方面具备丰富经验。

 

在 Looki 发布的一段产品介绍视频中,CEO 孙洋称,Luki L1 自去年 8 月上线以来,已被不少用户当作“记录生活节奏”的常用设备使用。Luki 还具备“主动 AI”能力,如根据饮食、坐姿时间、行为节奏提出健康建议,例如“你今天已经喝了两杯咖啡,要不要换成水?”或者“你已经在桌前坐了一小时,要不要走一走?”等。

 

智谱上市,唐杰内部信要求全面回归基础模型研究

 

1 月 8 日智谱上市当天,清华大学计算机系教授、智谱创立发起人兼首席科学家唐杰发布内部信,宣布很快将推出新一代模型 GLM-5。内部信还介绍了 2026 年智谱聚焦的三个技术方向,包括全新的模型架构设计,更通用的 RL(强化学习)范式以及对模型持续学习与自主进化的探索。它们均围绕基础模型能力提升展开。

 

上海又一 GPU“四小龙”上市!

 

继沐曦股份、壁仞科技之后,上海又一家 AI 芯片企业成功上市。1 月 8 日,上海芯片企业天数智芯登陆港交所,在 1 个月的时间内,上海已先后有“港股国产 GPU 第一股”的壁仞科技和科创板上市首日涨幅近 7 倍的沐曦股份,加上已完成 IPO 辅导冲刺科创板的燧原科技,上海 GPU“四小龙”齐聚资本市场。

 

媒体从上海市经信委获悉,2025 年 1-11 月,上海市集成电路产业营收规模 3912 亿元,同比增长 23.72%,2025 年全年产业规模预计超 4600 亿元,同比增长 24%,五年间产业规模翻了一番多,超额完成“十四五”发展目标。集聚超 1200 家集成电路企业,汇聚全国约 40%的产业人才、近 50%的产业创新资源。

 

天数智芯战略与公共关系部副总裁余雪松表示,作为国内首家开展通用 GPU 自主研发的企业,公司已完成从核心技术攻关到商业化落地的全链路贯通。“我们的研发团队有 480 人,平均拥有 20 年以上行业经验,超三分之一研发人员具备 10 年以上芯片设计与软件开发经验。包含架构、通用 GPU IP 及芯片设计、基础软件、软硬件协同等各领域的专家。”余雪松说。上海市经信委相关工作人员表示,除了上海 GPU 芯片“四小龙”(壁仞、沐曦、天数、燧原),光计算、近存计算等创新路线 AI 芯片企业也相继涌现,支撑国内大模型等新质生产力发展。

 

马斯克回应英伟达自动驾驶 AI 模型:特斯拉正在做,达到 99%很容易

 

1 月 6 日消息,在 2026 消费电子展(CES)上,英伟达宣布推出 Alpamayo 系列开放式 AI 模型、模拟工具和数据集,旨在解决自动驾驶安全挑战。对此,马斯克回应称:“好吧,这正是特斯拉在做的。他们会发现,达到 99%很容易,但要解决分布的长尾问题却非常困难。”

 

据悉,Alpamayo 平台的核心是 Alpamayo 1 模型,这是一款拥有 100 亿参数、基于思维链技术的视觉-语言-行动(VLA)模型。该模型可让自动驾驶汽车具备类人思维能力,即便在未经任何训练和标注的情况下,也能解决复杂的场景问题,例如在交通信号灯失灵的路口规划通行路线。

 

英伟达还强调,Alpamayo 模型并非直接在车内运行,而是作为大规模教师模型,供开发者微调并提取到其完整自动驾驶技术栈的骨干中。黄仁勋在声明中表示:“首款搭载英伟达技术的汽车将于第一季度在美国上路。”

 

硅谷科技初创公司兴起“脱鞋办公”潮

 

1 月 5 日消息,曾经靠海洋球滑梯、免费尼古丁袋等五花八门的福利留住员工的硅谷热门科技初创公司,如今又出新招——要求员工进门脱鞋。根据观察,在年轻人占主导的办公场所,“无鞋办公”政策正悄然兴起。雇主们认为,员工穿着毛绒袜、拖鞋踩在地毯上,能打造出更轻松无压的工作氛围。然而矛盾的是,这些公司中不少仍推行“996”工作制,要求员工从早 9 点工作到晚 9 点,每周连轴转 6 天。

 

斯坦福大学经济学家、职场文化专家尼克·布鲁姆表示,无鞋办公政策的流行,在一定程度上是“睡衣经济”的延伸——随着远程办公者被要求重返办公室,他们也把居家办公的习惯带到了办公室。但这一趋势也与硅谷高压的工作文化一脉相承。布鲁姆说:“如果你每天要在公司待 12 个小时,那不如直接穿拖鞋上班,毕竟在家也没机会穿。”

 

中国商务部回应 Meta 收购 Manus

 

1 月 8 日,就 Meta 收购人工智能平台 Manus 一事,中国商务部新闻发言人何亚东表示,中国政府一贯支持企业依法依规开展互利共赢的跨国经营与国际技术合作。何亚东在当日举行的例行新闻发布会上回应称,需要说明的是,企业从事对外投资、技术出口、数据出境、跨境并购等活动,须符合中国法律法规,履行法定程序。商务部将会同相关部门对此项收购与出口管制、技术进出口、对外投资等相关法律法规的一致性开展评估调查。

 

大模型一周大事

 

重磅发布

 

黄仁勋官宣英伟达已投产 Vera Rubin:训练 AI 速度是 Blackwell 架构 3.5 倍

 

在北京时间 1 月 6 日凌晨举办的 CES 2026 主题演讲中,英伟达首席执行官黄仁勋发表主题演讲,介绍了新一代“Rubin”计算架构,并将其定义为当前 AI 硬件领域的“最先进技术”,该架构已进入全面量产阶段。Rubin 架构以天文学家薇拉·鲁宾的名字命名,由六款协同工作的独立芯片组成。该系统的核心是 Rubin GPU,同时配备了专为“智能体推理”(Agentic Reasoning)设计的全新 Vera CPU。

 

在性能表现方面,Rubin 架构相较于前代产品实现了显著跨越。根据英伟达官方测试数据,Rubin 在 AI 模型训练任务上的运行速度是 Blackwell 架构的 3.5 倍;在推理任务中,其速度更是达到了前代的 5 倍,峰值运算能力高达 50 Petaflops。此外,新平台的能效表现同样优异,其每瓦推理算力提升了 8 倍。这一性能飞跃将为日益复杂的 AI 模型提供强大的算力支撑。

 

同时,黄仁勋也介绍并推出了全新的 Alpamayo 1,是其视觉-语言-动作模型(VLA),结合因果链推理与轨迹规划,主要增强复杂驾驶场景中的决策能力。

 

智元发布开源仿真平台 Genie Sim 3.0

 

智元机器人在 CES 国际消费电子展首日正式发布首个大语言模型驱动的开源仿真平台——Genie Sim 3.0。基于 NVIDIA Isaac Sim,Genie Sim 3.0 融合三维重建与视觉生成,打造数字孪生级的高保真环境;首创大语言模型驱动的场景泛化技术,让万级场景的生成只需几分钟;同步开源包含真实机器人作业场景的上万小时仿真数据集;并构建了覆盖 10 万+场景的多维度智能评估体系,为模型能力绘制全景画像。

 

OpenAI 推出 ChatGPT Health 模式,为“健康 / 医疗”类型对话设立专属空间

 

1 月 8 日消息,OpenAI 正式宣布推出 ChatGPT Health,该模式集成于 ChatGPT 中,号称是一个“专门用于与 ChatGPT 进行健康相关对话的独立空间”,预计将在未来几周内陆续向用户开放。OpenAI 称,目前平台每周有超过 2.3 亿人询问有关健康的问题,因此该公司推出了 ChatGPT Health 模式,旨在让用户更系统、更安全地讨论自身的健康问题。

 

据介绍,在 ChatGPT Health 模式下,系统会将用户的对话与其他普通聊天记录进行隔离,避免用户的健康背景在日常对话中被无意提及。如果用户在普通聊天中开始讨论健康问题,系统也会引导其切换到 Health 模式进行交流。同时,在 Health 模式下,AI 仍然可以参考用户在其他场景中的部分信息。ChatGPT Health 还将支持与个人信息及健康类应用的数据整合,包括 Apple Health(苹果健康)、Function 和 MyFitnessPal 等。OpenAI 强调,Health 模式中的对话内容不会被用于训练模型。

 

不过,ChatGPT 这样的“大模型”本质上是通过预测最可能的回答来生成内容,而不是基于对“真实与否”的判断,因此并不保证生成的医疗见解一定正确,OpenAI 也在其服务条款中明确指出,ChatGPT 仅供参考,不能够用于任何健康状况诊断 / 治疗。

 

雷鸟 CES 2026 推出全球首款 eSIM 功能 AR 智能眼镜 X3 Pro Project eSIM

 

1 月 8 日消息,雷鸟在 CES 2026 中正式推出了全球首款支持 eSIM 功能的 AR 智能眼镜 X3 Pro Project eSIM,但并未公布价格和上市时间。据介绍,该产品采用双目全彩光机,可获得“等效 43 英寸的 3D 空间视觉观感”,同时产品搭载高通骁龙 AR 1 计算平台,内置 RayNeo AR 应用虚拟机,支持微信、抖音、B 站等多款应用。此外,该产品搭载 eSIM 通信模块,使得 AR 眼镜首次真正具备脱离手机的能力,产品无需通过手机或 Wi-Fi,即可独立完成包括通话、实时 AI 对话、实时翻译、在线流媒体播放等功能。

 

摩尔线程正式发布开源大模型分布式训练仿真工具 SimuMax 的 1.1 版本

 

1 月 8 日,据摩尔线程消息,近日,摩尔线程正式发布开源大模型分布式训练仿真工具 SimuMax 的 1.1 版本。该版本在完整继承 v1.0 高精度仿真能力的基础上,实现了从单一工具到一体化全栈工作流平台的重要升级,为大模型训练的仿真与调优提供系统化支持。本次更新聚焦三大核心创新:用户友好的可视化配置界面、智能并行策略搜索,以及融合计算与通信效率建模的 System-Config 生成流水线。新版本同时提升了对主流训练框架 Megatron-LM 的兼容性,并增强了对混合并行训练中复杂通信行为的建模精度,使仿真环境更贴近真实生产场景。

 

企业应用

 

  • 1 月 7 日,微创机器人依托神经元 MicroGenius 多模态自主手术大模型,成功完成了全球首例“大模型自主手术”动物实验。这一突破性成果不仅填补了全球大模型自主手术在体动物实验的技术空白,更推动全球 AI 产业在医疗领域的深度升级与跨界融合。

  • 1 月 6 日,波士顿动力与谷歌 DeepMind 宣布建立新的人工智能合作伙伴关系,目标将 Gemini Robotics 人工智能基础模型与波士顿动力的新型 Atlas 人形机器人集成。

  • 1 月 6 日,高通与谷歌宣布深化长达十年的汽车领域合作,双方将整合骁龙数字底盘解决方案与谷歌汽车软件及云服务能力,加速软件定义汽车落地,推动 AI 赋能的智能出行体验规模化普及。

  • 1 月 5 日,腾讯 AI 工作台 ima.copilot 迎来更新:正式上线“生成 PPT”功能。用户只需进入“任务模式”,即可调用个人知识库中的素材,一键生成幻灯片。

  • 1 月 5 日,智元机器人已与 MiniMax 达成合作,MiniMax 将为智元机器人提供文本到语音全流程 AI 技术支持。针对智元机器人的产品定位与功能特性,MiniMax 为其量身打造专属人设体系,优化用户与机器人的语音交互体验。同时,基于人设体系构建定制化提示词策略,为用户生成专属音色,实现千人千面的个性化音色合成,满足多样化语音交互需求。此外,MiniMax 还基于自研音乐生成模型,助力智元机器人拓展娱乐场景玩法。