标签 阿里云百炼 下的文章

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、阿里发布万亿参数模型 Qwen3-Max-Thinking,性能对标 GPT-5.2

昨天,阿里正式发布千问旗舰推理模型 Qwen3-Max-Thinking。该模型总参数量超万亿(1T),在多项权威评测中刷新全球纪录,官方宣称其性能媲美 GPT-5.2、Gemini 3 Pro,是迄今为止最接近国际顶尖水平的国产 AI 大模型。

Qwen3-Max-Thinking 的预训练数据量高达 36T Tokens,并在预览版基础上进行了更大规模的强化学习后训练。在涵盖事实知识、复杂推理、指令遵循等 19 个基准测试中,该模型刷新了数项最佳表现(SOTA)纪录。

根据官方公布的评测数据,Qwen3-Max-Thinking 在启用 TTS(Test-time Scaling)机制后,在科学知识(GPQA Diamond)测试中得分 92.8,略高于 GPT-5.2 的 92.4;

在数学推理(IMO-AnswerBench)和代码编程(LiveCodeBench 2025.02-2025.05)中分别取得 91.5 和 91.4 的高分,均优于 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Pro。

特别是在启用工具的「人类最后的测试」(Humanity's Last Exam with Search)中,该模型得分为 58.3,大幅领先 GPT-5.2-Thinking 的 45.5 分,录得当前所有模型的最高分。

技术层面,阿里表示 Qwen3-Max-Thinking 采用了一种全新的测试时扩展机制。 与业界普遍的简单增加并行推理路径不同,新机制能对此前推理结果进行「经验提取」式的提炼,通过多轮自我迭代在相同上下文中实现更高效的推理计算。

此外,模型大幅增强了自主调用工具的原生 Agent 能力。 经过基于规则奖励与模型奖励的联合强化学习训练,模型可自适应选用搜索、个性化记忆和代码解释器等核心工具,不仅回答更流畅,还大幅降低了模型幻觉。

目前,普通用户可通过千问 PC 端和网页端免费试用新模型,千问 App 也即将接入;企业开发者则可通过阿里云百炼获取 API 服务。

体验链接

Qwen Chat: https\://chat.qwen.ai/

阿里云百炼:

https\://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23

( @APPSO)

2、打通感知、交互与执行:讯飞星辰升级多模态全栈能力,加速智能体规模化落地

1 月 26 日,讯飞星辰智能体平台官宣重大升级,实现了讯飞星辰智能体平台和 AIUI 开放平台完全打通、升级超拟人交互技术、支持快速定制音色、RPA 升级,提供一套全面且完整的多模交互解决方案,让智能体拥有更全面的类人化交互能力、全场景执行能力。

  • AIUI 开放平台接口打通 :支持在「讯飞星辰」创建智能体并一键发布至 AIUI,实现语音交互与机器人动作规划(如桌面机器人绘本生成、运动轨迹)的同步调用与快速集成。
  • 秒级「一句话声音复刻」 :利用超拟人交互技术,支持通过自然语言描述声线并在几秒内合成 4 个候选音色;支持中英日韩粤等多语种、方言及多风格(新闻、交谈、绘本)音色生成。
  • 单图构建多模态数字分身 :支持通过一张照片快速生成数字人,其口型、表情及动作由大模型自动驱动;结合多模态视觉理解,支持智能体实现主动迎宾与环境感知的交互闭环。
  • RPA 执行能力组件化 :升级网页自动化智能组件,支持非专业开发人员通过低代码配置参数进行流程编排;提供开源可视化数据表格功能,实现数据提取与处理过程的透明化。

最直观的一个例子就是,将 为智能体定制声音的时间压缩到了几秒钟

发布会的实际演示中,操作人员在讯飞星辰智能体平台生成了曹操人格的智能体后,通过自然语言描述想要的音色声线、输入试听文本、点击生成,就在几秒内合成 4 个候选音色。接着选择保存、应用音色后,用户就能与刚刚的曹操人格智能体进行语音聊天。

这是讯飞星辰智能体平台此次升级的一个缩影,而智能体的未来形态,将从单一工具,升级为兼具感知、交互能力,拥有专属声音、形象与性格人设,还能自主完成操作执行的全能型智能体,驱动这一切进化的核心,正是多模交互技术

当前海内外大厂与科创企业均在智能体平台赛道加速布局、密集发力,但行业仍普遍面临技术落地难、场景适配不深的核心痛点。

讯飞星辰智能体平台此次实现感知、交互、执行三大核心能力的一体化整合,从底层打破智能体落地过程中的技术协同壁垒,直面其场景适配难题,为智能体技术的规模化落地扫清关键障碍。

简言之,讯飞星辰智能体平台此次升级,核心便是瞄准降低智能体开发门槛、丰富其可落地的能力边界两大核心目标,在扩展服务能力的基础上,还提供了低代码、一键接入、快速接入等快速开发部署工具。

总的来看,当前智能体产业技术成熟度足够支撑场景落地,市场需求旺盛,但落地效率与成本仍是核心瓶颈,而打通场景适配、能力集成、生态协同的全栈能力,将成为智能体产业竞争的核心壁垒。

相关链接:

https\://agent.xfyun.cn

(@智东西、@讯飞开放平台)

3、Google 支付 6800 万美元和解金,解决语音助手「监视」用户的指控

据路透社报道,Google 已同意支付 6800 万美元,以解决一项指控其语音助手非法监视用户、并利用相关数据投放广告的索赔诉讼。

Google 在这项集体诉讼的和解协议中并未承认存在任何不当行为。该诉讼指控 Google「在未经个人同意的情况下,非法且故意地拦截并录制个人的机密通信,并随后将这些通信未经授权地披露给第三方。」诉讼进一步声称,「从这些录音中收集的信息被错误地传输给了第三方,用于定向广告及其他目的。」

该案件的核心争议集中在「错误唤醒」上,即指控 Google Assistant 即使在用户未通过唤醒词有意触发的情况下,也会自动激活并录制用户的通信内容。TechCrunch 已就此联系 Google 寻求置评。


长期以来,美国民众一直怀疑电子设备在不适当地监视他们,这些怀疑正日益转化为法律诉讼。2021 年,苹果公司曾同意支付 9500 万美元,以解决关于其语音助手 Siri 在未获用户提示的情况下录制对话的类似指控。

与其他科技巨头一样,Google 近年来也面临着多起隐私相关的诉讼。去年,该公司同意向得克萨斯州支付 14 亿美元,以解决两起指控其违反该州数据隐私法的诉讼。

( @TechCrunch)


02 有亮点的产品

1、249 元起,苹果推出升级版 AirTag,精确查找范围扩大 50%

昨天,苹果突然官宣,正式推出新款 AirTag,采用与 iPhone 17 系列、iPhone Air、Apple Watch Ultra 3 及 Apple Watch Series 11 相同的第二代超宽带芯片,在连接范围、精确查找能力与扬声器音量方面均进行了大幅升级:

  • 精确查找范围最高提升 50%,定位更快更准
  • 蓝牙连接范围扩大,远距离也能找到
  • 扬声器音量提升 50%,提示音更响亮
  • 支持 Apple Watch 精确查找,查找场景更丰富
  • 「查找」网络升级,脱离配对设备也能回传位置
  • 防追踪机制强化,跨平台警报更可靠
  • 支持共享物品位置,协助航空公司找回延误行李
  • 外壳与磁铁采用高比例再生材料,更环保

新款 AirTag 已正式开售。售价方面,单件装售价 249 元,四件装售价 849 元,并提供免费镌刻服务。零售店将于本周晚些时候陆续上架。

与此同时,苹果今天还推送了 iOS、iPadOS 和 watchOS 26.2.1,主要更新内容是新增对 AirTag 2 的支持。

( @APPSO)

2、京东「抢跑」淘宝,首款智能眼镜购物应用落地乐奇 Rokid

1 月 26 日消息,京东科技购物智能体 JoyGlance 正式登录智能眼镜品牌乐奇 Rokid,标志着行业首款智能眼镜购物应用正式落地,是京东布局「具身智能消费场景」的关键一步。

用户只需将 Rokid 眼镜系统更新至最新版本,应用由京东自研大模型 JoyAI 驱动,深度融合 Rokid 在光波导显示、远场语音交互与自研操作系统上的硬件能力,将传统网购流程从「搜索—浏览—比价—下单—支付」五步,压缩为极简的 「说、看、付」三步

据悉,2025 年 10 月,Rokid 乐奇与京东科技就达成战略协议。此次携手,不仅是技术突破,更是消费入口的迁移,开启全球首个「所见即购买」的智能眼镜全链路购物入口,实现「目光所及、皆可购买」

当购物从「指尖滑动」转向「目光注视」,智能眼镜正从可穿戴设备升级为下一代空间计算与消费交互终端。用户不再依赖搜索框或直播链接,而是将物理世界直接转化为购物入口,或为电商行业开辟了全新的场景。

(@即智 Ultra)

3、LiveTok 发布「LiveTok Avatars」:支持单张照片生成实时交互式 AI 数字孪生

LiveTok 推出基于 AI 的虚拟助手平台「LiveTok Avatars」。该产品支持通过单张静态照片构建具备实时音视频交互能力的数字分身,旨在通过拟人化的「数字孪生」替代传统文字客服,实现 24/7 的实时客户互动。

  • 单图驱动数字孪生 :用户仅需上传单张人物照片,AI 即可生成具备面部动态的克隆形象,无需复杂的视频采集。
  • 行为与语调克隆 :AI 模型通过学习可复刻特定个体的说话风格、语速及特定动作习惯,提供具备自然停顿的类人语音响应。
  • 低代码 Web 集成 :支持通过嵌入数行代码直接在网站部署,无需复杂的后端环境配置。
  • 实时音视频同步 :提供低延迟的实时语音对话环境,演示版本目前支持单次最高 2 分钟的交互。

目前处于 Beta 测试阶段,提供免费起步版,特定「数字孪生」功能需申请加入 Waitlist。

相关链接:

https\://www.livetok.ai/products/avatars

( @LiveTok)

4、阶跃星辰获超 50 亿人民币融资,印奇出任董事长

昨天,大模型创业公司阶跃星辰(StepFun)完成超 50 亿人民币 B+ 轮融资,创下过去 12 个月大模型赛道单笔最高融资纪录。上国投先导基金、国寿股权、浦东创投、徐汇资本、无锡梁溪基金、厦门国贸、华勤技术等产业投资方参与本轮融资,腾讯、启明、五源等老股东继续加码。本轮资金将主要用于基础模型研发,并加速「AI + 终端」战略落地。

同日,阶跃星辰宣布千里科技董事长印奇正式出任公司董事长,全面负责公司战略节奏与技术方向。 印奇此前已深度参与阶跃星辰的战略规划,其加入被视为公司在大模型「季后赛」阶段强化产业落地能力的关键一步。

这笔融资规模不仅超过月之暗面此前宣布的 5 亿美元 C 轮,也高于智谱与 MiniMax IPO 募资额,成为近期 AI 资本市场最受关注的事件之一。

过去两年间,该团队在「百模大战」中突围,跻身国内大模型第一梯队,并持续坚持预训练路线,构建了覆盖语言、多模态、音频、动作等方向的完整模型矩阵。

印奇的加入补足了阶跃星辰在产业落地上的关键能力。作为旷视科技联合创始人,印奇在 AIoT、城市级物联网系统等领域拥有丰富经验,其长期关注的「AI+终端」路径也与阶跃星辰的战略方向高度一致。

  • 在商业化方面,阶跃星辰已与国内六成头部智能手机品牌达成深度合作,模型装机量突破 4200 万台,覆盖 OPPO、荣耀、中兴等品牌,日均服务用户达 2000 万人次;
  • 在汽车领域,公司与千里科技、吉利合作,将端到端语音模型集成至智能座舱系统,吉利银河 M9 上市 3 个月销量接近 4 万辆,阶跃星辰今年的车载模型装车目标为百万级;
  • 在技术路线方面,阶跃星辰坚持「原生多模态」策略,直接从图文交错语料进行端到端训练,以提升模型对物理世界的理解能力。其音频模型 Step-Audio-R1.1 通过 MGRD 技术在权威榜单 Artificial Analysis 上取得全球第一。

印奇的加入意味着阶跃星辰将加速推进「AI 进入物理世界」的战略,并在手机、汽车等消费终端形成更具确定性的商业闭环。

( @APPSO)


03 有态度的观点

1、俞敏洪:AI 或消灭大量教师岗位,中小学教师「一大半是不合格的」

据快科技报道,新东方创始人俞敏洪近日在今年崇礼论坛上围绕互联网与人工智能对教育行业的影响发表最新观点。

他指出,技术变革正推动教育从「一张嘴一块黑板」到「互联网 + 教育」,再迈向「AI + 教育」,并强调这一趋势将深刻改变教师岗位结构。

俞敏洪表示,互联网仍在人类可控范围内,但其带来的舆论放大效应已深刻影响个人生活。他提到,过去三年遭遇的网暴与互联网环境密切相关。

相比之下,人工智能的影响更具结构性,其在教育、医疗、生物等领域的应用将持续扩大。

在教育场景中,他认为 AI 已能完成接近 100% 的英语交流与作业批改,不仅提升效率,也减轻学生面对老师时的心理压力。他指出,AI 的普及可能会「消灭大量老师岗位」,因为基础知识传递正被技术快速替代。

他进一步强调,未来教师的核心价值将转向激发学生潜能、塑造人格与引导成长,这些能力无法被技术替代。


按照这一标准,他直言目前国内中小学教师「一大半不合格」,部分教师面对学生提问时因无法回答而迁怒学生的现象亟需改善。

俞敏洪还回顾新东方在「互联网 + 教育」时代的结构性变化:互联网放大名师影响力,使大量优秀教师离开线下课堂,包括他本人也不再走进教室授课。

他认为,AI 的到来将带来更深层次的行业重塑,对教师提出更高要求,而这些要求比以往更难达到。

他强调,人工智能的最终走向取决于使用者,而非技术本身,教育行业需要在技术变革中重新定义教师角色与价值。

( @APPSO)


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


作者提示: 个人观点,仅供参考​

通义深度搜索限时免费中,快来使用吧!

 应用开通

1.在阿里云百炼控制台的应用广场中点击通义深度搜索卡片,进入应用详情

image

2.首次试用时,点击右上角免费开通完成应用开通。

image

image

应用管理

点击我的应用进入应用管理页面。页面展示所有已创建的应用和应用key等信息,首次使用需要新增应用。

image

应用配置

点击应用卡片或新增应用进入应用配置界面。

image

1.场景选择

根据实际需求选择使用场景,当前可选通用场景、法律场景。

2.互联网检索配置

开启后支持实时互联网全栈信息检索,提升模型回答准确性及时效性。

2.1检索策略

在检索策略上,您可以在‘标准版本’和‘自定义版本’中选择一种

标准版本

标准的检索策略,选择标准版本时,可以进一步根据对于搜索效果与搜索耗时的偏好选择不同的性能版本。

  • Max版本:效果优先,检索更深入,结果更全面,但响应时间较长
  • Turbo版本:速度优先,响应时间短,适合对实时性要求高的场景
自定义版本

选择自定义检索策略时,有更多的配置进行更细化的配置。

  • 支持限定检索时间范围
  • 支持限定网站范围,最多添加20个网站,配置后优先从此范围网站检索信息,如果无匹配信息则会扩展到全网检索,网站录入时会自动去重
  • 支持配置recall数量,数量越高信息越全,但会占用更多资源,增加耗时
  • 支持配置网页读取开关,开启后搜索结果更详细但是耗时增加

image

2.2策略选择

可根据搜索效果与rt偏好选择max版本和turbo版本。

3.自有知识库配置

支持接入非百炼的自有知识库作为搜索来源,开启选项后可进行配置,点击添加知识库配置

输入知识库名称、知识库描述、服务地址、授权信息,点击“服务测试”,验证通过后点击“保存”以完成添加。可参考示例文档进行知识库对接配置。

image

4.百炼知识库

支持接入百炼知识库,选择已配置的知识库,如无百炼知识库,需要先在百炼控制台创建知识库。并添加知识库描述,知识库描述需要认真填写易于模型理解。

5.code\_interpret

开启后提升对于复杂计算问题的效果。

6.动态文件解析

开启动态文件解析后,支持在输入query同时添加本地文件作为临时上下文知识。一次对话最多可上传10个文件,单文件不超过10MB,支持.docx/.doc/.pdf/.txt/.md等格式。

7.生成配置

开启输出报告后,对话最终会生成报告文件。关闭则不生成报告。

应用测试

配置完成后,可在输入框输入query进行测试,对话框展示chat内容、计划规划、思考过程、检索过程、工具调用过程等多个深度搜索研究步骤。最终生成报告文件。右侧报告区域支持‘预览’模式和‘源码’模式。切换到‘源码’模式可查看用于生成报告的Markdown原文。提供文件下载。

重要

请注意,在配置页面测试也会计算使用量并产生费用。

image

应用发布

配置测试完成后,可以点击发布,将应用发布后可正式使用。

image


点击访问:通义深度搜索应用

点击:更多讨论交流

撰稿:李文朋

编辑:王一鹏

最近,“Meta 以 20 亿美元收购 Manus”的消息传得很热。

Manus 曾被嘲讽“套壳”,但业内人士认为,虽然 Manus 整体架构和理念不算颠覆式“新”,但在任务连通性、容错、回退机制等实现上,极度考验工程能力,远不是“换个皮”那么简单。

 

在 Manus 创始团队与媒体的最近一次访谈中,联合创始人季逸超提出目前 Manus 定位只是一位“通用型助手”,帮普通人把复杂工作流做完,不能完全替代用户本身。这也是因为在 ToC 场景里,普通用户对体验要求很苛刻——慢一点不行,错一点也不行,Manus 团队很清楚这一点。

 

如果说 ToC 用户已经够“难伺候”,那 ToB 客户对 Agent 的要求只会更高:一方面,企业希望 Agent 真正“上生产”,意味着要接入复杂的权限体系、业务系统和合规要求;另一方面,任何一次错误操作、脏数据写入、流程走错,带来的代价都远比个人用户高得多。

 

所以会看到,过去一年很多企业在这条路上吃了不少苦:投入人力、投入预算,最后做出来的 Agent 用不了。MIT《2025 年商业 AI 现状》报告里提到,约 95%的生成式 AI 试点项目很难进入生产环境,很多最终都卡在上线前后。

 

问题出在哪?就在于这些一连串的工程难题。

 

比如代码标准不统一、系统接口五花八门、工具调用不稳定、开发周期被拉得很长;数据资产混乱、想用调不出;安全合规和权限管理一碰就痛;甚至出现“越用越退化”的优化难题。

 

说到底,并不是模型不行,也不是工程师不会做,而是整个 Agent 开发还不够成熟,大家还在摸索阶段,没有提前规划一套更清晰、更稳定的“做法”。

 

所以,国内的云厂商开始认真思考一个问题:到底怎样才能帮助企业把 Agent 的难题解决掉?有没有一种更适合落地的开发范式?

 

2025 云栖大会上,阿里云 CTO 周靖人就曾提出过「AI 时代的 Agent 开发范式」。而在 1 月 7 日,阿里云百炼对“1+2+N”体系和开发范式做了一次更系统的升级,把它落成一个工程化的体系。

 

这套“1+2+N”体系的想法并不复杂,本质是把 Agent 落地拆成三层:

 

稳底座(1):把模型和云资源这些基础能力做稳定、可扩展、可治理。地基不稳,再漂亮的 Agent 也只能停在 PoC。

 

定范式(2):给企业一套把 Agent 做成“工业产品”的开发与运行体系,能开发、能部署、能迭代,交付不再反复折腾。

 

理杂活(N):把真实业务里最难、最碎、但最致命的集成、权限、评测、成本这些“脏活累活”,做成可插拔的组件,让企业能按需拼装。

 

从这个角度看,这次阿里云百炼迭代背后体现的是一种更务实的方向:要用更工业化的方式,让企业的 Agent 在真实业务里跑起来。

 

一、“N”:通用大方案,不如啃硬骨头的“高手组件”

 

经过大量 Agent 的试错,企业如今在启动一个 Agent 项目时,最先拎出来掂量的往往不是模型,而是数据怎么处理与调用、安全问题能不能搞定、上线后怎么评估和优化。

 

这些硬问题不先解决,再漂亮的 Agent 构想也很难真正走进生产环境。而在阿里云百炼的“1+2+N”体系里,“N”恰恰就是优先来啃这些硬骨头的。

 

更关键的是,这一次“N”做了很大的升级:它把落地过程中那些最常见、最难啃、最容易反复踩坑的环节抽象出来,沉淀成一组可插拔、可组合的模块化组件。Agent 开发的难题看起来五花八门,但很多难题其实有共通的解法,可以被提炼、被复用。

 

“N”组件的存在,可以让企业缺什么就用什么、按需组合,把时间花在业务价值上,而不是重复造轮子。

 

这次升级里,一个直观的变化在应用广场:阿里云百炼把同类 Agent 做成了十多个精选合集,提供新的多模态模板,支持免登录体验,也能一键调用 API,把“试试到跑起来”的路径压得更短。

 

真正决定“能不能落地”的挑战,还有数据连接与知识管理、安全与权限控制、可观测与持续优化等问题。

 

企业做 AI 转型,数据治理永远是“卡脖子”环节。尽管大家都知道数据重要,但真落到工程上,标注、清洗以及让模型读懂私有数据的成本极其高昂。

 

目前,企业内部约 80%的数据以 PDF、图像、视频或会议录音等非结构化形式存在。据 IDC 预测,这些数据多处于“不可检索、不可复用”的沉睡状态。随着全球数据量预计在 2026 年激增至 221ZB,如何将这些碎片资产转化为 Agent 可调用的知识,成为企业发展的关键。

 

阿里云百炼的思路是把这条链路做成“工具化”:用多模态 RAG、多模态数据库、Connector 连接器,把数据处理变成更工业化的流水线。

 

多模态数据库通过智能解析、分类归档,打破图像/音频/视频等模态壁垒;多模态知识库 RAG 不再局限于纯文本,支持数十种格式的高精度解析,包括扫描件 PDF、复杂报表、音视频会议记录等。

 

在 Workflow 层面添加多模态文件处理与生成节点,同时提供覆盖 Chunking、Embedding、(多模态)Embedding、Rewrite、Retrieval、ReRank 等在内的向量化全流程能力,用于检索与消化企业数据资产。

百炼平台还提供开箱即用的 RAG 工具,企业无需自建复杂的向量库与检索链路,也能获得高性能的知识检索与生成能力。

 

把知识库做起来只是第一步。要让 Agent 真正有用,它就得能接入实时数据。然而,长期以来 ERP、CRM 等异构系统间的集成成本高昂,导致 65%的企业受访者认为业务系统沦为新的“数据孤岛”。

 

百炼平台推出的 Connector(企业级数据连接器),就是想把这个门槛降到最低。

 

通过 Connector,企业可以一键对接飞书、语雀、MySQL 及 OSS 存储;连上之后,这些数据既能直接喂给知识库,也能驱动工作流跑起来;平台还提供数十种预置工具(Tools),支持用自然语言直接查询或检索数据等。

 

当然,数据一旦接进来了,真正棘手的问题也随之出现:权限边界与责任归属难题。

 

长期以来,很多 Agent 在企业业务中多以匿名形式存在。这种“身份透明”导致操作链路难以溯源,不仅无法明确执行指令的主体,更埋下了越权操作的隐患。

 

为此,百炼平台引入 Agent Identity 组件,将 Agent 纳入企业身份治理的范畴。

 

通过集成 Okta、EntraID 等主流系统,平台为每个 Agent 分配数字身份,使其行为从孤立的匿名调用转变为绑定主体、可供审计的合规操作。

 

百炼平台也将传统的“常驻权限”升级为“按需授权”仅在执行任务时获得短期令牌,任务结束权限即刻回收。

 

配合权限降级机制,Agent 的边界被严格限制在用户授权范围内,确保无法越权。全链路审计日志则让每一步决策都透明可查,解决了企业“敢不敢给权限”的顾虑。

 

针对执行环境安全,百炼平台也构建了 Sandbox(沙盒)物理隔离屏障。当 Agent 处理外部代码或第三方数据时,系统可以利用虚拟化技术将其限制在独立空间内,精简系统调用并严控网络访问。

 

每一个任务会话均在“即用即弃”的容器中运行,执行完毕立即重置,彻底阻断了数据残留与交叉污染。平台同步引入实时监控与会话回放,一旦监测到异常行为将立即终止任务。这种设计为 Agent 提供了“受控下的自由”:在屏障内保持灵活性,在边界外确保系统安全。

 

而当 Agent 真正跑进业务之后,新的共性难题也会浮现:怎么评估、怎么持续改进。

 

与传统软件不同,Agent 的执行具有非确定性:即便输入相同,也可能因模型的随机性、工具调用顺序或上下文波动产生不同的输出。这导致开发者难以追踪 Agent 决策逻辑,在任务失败时无法精准定位是模型、工具还是流程缺陷。

 

百炼平台通过 Trace(可观测)与 Evaluate(评估)组件,实现了从“黑盒”到“透明”的转变。

 

Trace 组件提供完整的执行轨迹追踪,清晰复现了从思考(Thought)、行动(Action)到观察(Observation)的每一步。开发者可以判断哪一步耗时最长、哪个工具失败率最高,或是在哪个环节陷入了逻辑死循环。

 

结合 Token 消耗、响应速度等量化指标,这些数据可通过 Grafana 进行可视化监控,构建起实时的生产环境观测能力。

 

基于此,Evaluate 则建立了体系化的评价标准。

 

在任务完成度评价方面,百炼平台可以通过衡量目标满足率与输出质量对 Agent 进行评分;并支持“模型评测(LLMasJudge)”、专家打分与人工复查相结合的混合模式,对失败任务进行深度归因。

 

可以说,基于日志(Logs)、指标(Metrics)与追踪(Traces)的三大支柱,百炼平台设计了一个“评估—优化—验证”的持续迭代闭环。这种由数据驱动的迭代机制,也驱动着 Agent 实现“越用越好用”的工程闭环。

 

相比于自建底层架构,直接调用百炼平台的成熟组件能让开发周期缩减数倍。以 RAG 系统为例,以往搭建搜索和解析链路需要数周,现在利用多模态 RAG 组件,几个小时就能跑通。

 

企业不需要为每个 Agent 单独开发身份认证或数据接口,一套 Agent Identity 就能管好所有 Agent 的工号,一个 Connector 就能接通全公司的数据源。

 

放在阿里云百炼“1+2+N”体系中,组件化正填补模型到业务之间的最后一块拼图:模型提供计算力,开发范式定好流程,而这“N”个组件则专门负责解决数据怎么连、权限怎么划、效果怎么评、安全怎么管这些具体的“杂活”。

二、“2”:“下一代”Agent,需要新开发范式

 

“N”组件把坑填平,只解决了“这事能不能接得上、管得住”。企业真正要把 Agent 变成长期能用的工业生产能力,还得解决另一个现实问题:怎么开发、怎么协作、怎么迭代。

 

阿里云百炼“1+2+N”体系里的“2”,就负责这一点,它涵盖两种开发方式(低代码+高代码),以及配套 Agent 开发平台,通过同一套平台和运行时,分别服务两类人、两种交付方式。

 

为什么要做成“2”种模式?因为企业落地 Agent 的过程,基本就是两条路同时走:想快速试点、尽快看到效果,低代码更省事、更快;真要进核心业务、对接复杂系统,高代码才够灵活、够深。

更现实的是,企业在代码协作上存在长期的“割裂”:低代码不够用,高代码效率低。产品经理用低代码搭建的草案,往往需要技术团队用高代码重新开发,而这种重复劳动会导致业务逻辑在传递中失真。

 

为了让 Agent 更快、更深地融入业务,百炼把低代码和高代码“打通”:企业可以从低代码起步做验证,再逐步演进到高代码做优化,形成一种更自然的渐进式开发,让真正懂业务的人与懂技术的人有机协作。

 

据 Gartner 的预测,到 2028 年,企业里相当一部分 Agent 应用会由业务人员主导搭建。双开发模式很可能会成为 Agent 走向工业化落地的一种主流形态。

 

但“2”的意义还不止是“怎么写代码”。更重要的是:下一代 Agent 本身就需要新的开发范式。

 

过去的一年,很多企业里的 Agent 实际上还停留在比较“表层”的形态:一种是以提示词工程为核心、更多承担辅助角色的 Copilot;另一种是能处理重复流程、严格按预设步骤执行的“数字员工”。它们能提升效率,但往往缺少主动规划与闭环执行能力。

 

Agent 不应仅“被告知怎么做”,而是“应该主动思考怎么做”。

 

因此阿里云百炼提出了 Agent2.0:未来的 Agent 要能围绕目标自主规划,把复杂问题拆成可执行的小任务,过程中还能根据反馈调整策略,最后交付更稳定、质量更高的结果。

 

按照这个定义,Agent2.0 的核心链路是“规划—执行—反思”。

 

而现实里很多 Agent 开发失败,问题往往是开发范式还停留在老路上。传统那种线性链路(用户 →Agent→ 模型 → 输出)有三个硬伤:没有规划,就很难应对动态场景;没有反馈与纠错,走偏就很难拉回来;没有长期记忆,交互体验容易断裂。

 

为了能承载 Agent2.0 的生产级落地,百炼平台对开发范式做了系统升级:AgentScope 从过去偏“开源写代码”的工具形态,演进为覆盖 Agent 全生命周期的工业化开发平台。

第一步,是把“上手门槛”压到尽量低。

 

一方面,AgentScope 做了对主流模型能力的统一集成,内置 100+预训练模型,拿来就能用。

 

另一方面,百炼平台提供了一批可复用的智能体库,比如交易智能体(EvoTraders)、调研智能体、金融分析智能体、数据科学智能体(Data-Juicer)、浏览器使用智能体、语音智能体等,减少从零开始的成本。

 

第二步,是围绕更高级的 Agent2.0,把“协作与执行”能力补齐。

 

AgentScope 主要通过三块来支撑:

 

多智能体编排:引入基于 Actor 模型的分布式架构,支持多个专业 Agent 的并行协作与自动调度。研究表明,协作模式任务成功率比单一 Agent 高出 90.2%。

 

智能体上下文管理(长期记忆):深度适配 Mem0、ReMe 等记忆系统。使得 Agent 能够自主存储并检索历史交互中的关键信息,在后续任务中实现能力的持续迭代。

 

工具调用能力:全面兼容 StreamableHTTP、SSE、STDIO 等主流接口标准。通过支持 AnthropicAgentSkill 规范,在运行时即可动态加载新工具或移除冗余资源。

 

在工具调用这层,ReAct 这类“边想边做”的范式,也被不少实践证明更容易形成任务闭环:学术基准测试中,ALFWorld 任务只需 2 个示例即可达到 71%的成功率,高于强化学习模型的 37%;在复杂任务中,准确率相较纯 FunctionCalling 提升约 15%–20%,成本比 CodeAct 低 78.9%。

 

在 Agent2.0 优化与部署阶段,阿里云百炼通过 AgentScope-Studio+AgentScope-Runtime 打通了全生命周期的工业化链路。

 

AgentScope-Studio 可通过自定义多维表现指标,评估工作流设计的合理性;提供从输入到输出的全链路追踪与可视化,让 Agent 行为与决策过程实现“可观测、可复盘”。

 

百炼平台利用评测结果持续改进,让失败样本成为训练资产,形成“评测→优化→验证→再优化”的迭代闭环,实现从“盲目调参”到“数据驱动优化”的范式转换。

 

在落地部署环节,AgentScope-Runtime 支持 Docker、K8S、ACK、Serverless 等多种部署形态;通过 Agent-as-a-Service 将 Agent 封装为可独立调用的 API 服务,兼容 A2A 与 ResponseAPI 等协议,便于集成、弹性扩缩与快速迭代。

 

如果把阿里云百炼的开发范式拆开来看,其实就是从“构建”走向“运营”的一个完整闭环。

 

前半段构建,重点是更快、更省力地把东西搭起来:

 

用可选智能体模板减少重复劳动;用多智能体编排与工作流把复杂任务拆成可协作的子任务;用高低代码一体化实现统一开发与交付;通过 ReAct 等方式完成多任务的规划、执行与自我纠偏,再结合用上下文和长期记忆支撑长链路执行等。

 

后半段上线运营,就是做让它智能地跑起来:

 

用可观测和自动化评测把效果变成可量化的指标;打通真实系统和数据源,拿到反馈并持续优化;在企业既有基础设施上实现更便捷的部署与稳定运维;同时借助 Identity、模型单元专属部署、机密推理等能力,把权限、安全与合规治理补齐。

 

这套开发范式的最大亮点,就是它统一按照“工业级 Agent2.0”的标准做事:高效的开发体系+可持续的反馈闭环+便捷可靠的上线部署。

 

三、“1”:模型优势之外,深挖“模型服务”工程

 

最后,无论是组件化拼装,还是低/高代码协作,最终都要落在同一个问题上:模型调用能不能稳定、能不能扛流量、能不能控成本、能不能过合规。

 

所以“1”是整个体系的地基——模型与云服务底座把推理服务、弹性、部署形态与安全边界做成统一供给,保证上层“能跑起来,也跑得久”。

 

很多企业在用 Agent 的过程中,卡住的往往不是“模型会不会”,而是一些更现实、更工程的问题:1)延迟、并发、稳定性跟不上真实业务流量;2)成本容易失控(链路长、多轮工具调用、重试一多就更明显);3)部署和合规麻烦(私有化、混合云、权限边界、数据隔离等)。

 

在调用模型的时候,企业最关心的也无非就两件事:成本与性能。为此,百炼平台提供了一套云资源调度组合拳:“异步调用+闲时调度”。

 

以前搞大规模的数据清洗、标注,或者是分析长视频,这些任务不仅计算密集,而且耗时漫长。最头疼的就是走“同步调用”,跑到一半接口超时了,任务断掉,前面全白干。

 

有了异步调用就省事多了,它像寄快递一样,你把任务丢给后台,拿个任务 ID,就可以去干别的。不用在那儿死等结果,等服务器处理完了你再回来取就可以。

 

而“闲时调度”更像“错峰用电”:不着急的任务挪到资源空闲的时候跑,单价更划算,整体资源利用率也更高。阿里云百炼官方给出的数据是,动态调度后闲时推理成本可降低 50%。对需要处理海量数据的企业来说,这种节省是实打实的。

 

此外,阿里云百炼这次把“模型服务能力”也做了系统升级,主要围绕四块:模型后训练、专属模型单元部署、平台可观测、推理安全防护,系统性地”深挖“模型的服务能力。

 

先从选型说起。百炼平台把模型体验中心做了结构性重构,把在线模型的能力做成更直观的“能力图谱”,支持文本、视觉理解、图像/视频生成、语音交互等全模态体验。

 

这样企业就不用靠猜,也不用“盲选”,可以在平台上直接对比不同模型在具体场景下的表现,再做选择。

 

模型选定之后,是否“实用”往往取决于后训练。很多企业真正需要的不是通用能力,而是用自家数据和业务知识微调出来的“专家模型”,这才更贴近业务,也是企业的核心壁垒。

 

模型训完后,真正容易被“拦住”的常常是部署。自建集群运维复杂、成本也难估:为了应付峰值不得不预留一堆算力,平时又闲着浪费;多租户环境下的数据隔离和性能争抢,会让企业心里不踏实。

 

阿里云百炼推出“模型单元”部署,其实相当于给企业开了条“专属通道”,减少资源争抢带来的不确定性,让高并发和低延迟更稳定。

 

同时提供全托管的 Serverless 方式:系统会跟着实时流量自动扩缩容——忙的时候自动扩,保证体验;闲的时候自动收,尽量省成本。

 

官方给出的测试数据里,模型单元部署相对传统自建集群方案,推理性能提升超过 1.3 倍,并发能力提升超过 1.5 倍。对企业来说,这类提升的意义很直接:同样的业务量,成本更低性能更好。

 

此外,调用模型处理数据时,最难绕开的是安全——尤其在金融、医疗、法律等高敏行业。很多企业不是不想用,而是卡在一句话:数据给到模型,会不会出事?

 

为此,百炼平台推出模型“机密推理服务”,依托三层安全架构,为企业构建起全链路的数据保护围墙:

 

第一层是基于 CPU/GPU 硬件可信执行环境的机密计算能力,将模型推理运行在硬件隔离的安全区内。即便云侧其他组件遭受攻击,敏感数据也难以被窃取或泄露。

 

第二层是端到端加密的可信链路:实现了从用户端到云端计算中心的全程加密传输。数据在加密状态下进入 TEE 区域处理,计算结果在加密状态下返回,确保数据在“流动”与“处理”的全生命周期中始终处于保护伞下。

 

第三层是公开审计的可信服务:平台提供可验证的身份与安全能力证明。企业不仅能自主校验服务安全性,更能以此作为合规背书,向管理层、审计机构及客户证明其 AI 系统的高安全性。”

 

在使用体验上,机密推理被做成了“一键交付”的形态:企业只需要在模型库中选择支持机密推理的版本,一键部署到 TEE 隔离环境,就能直接调用机密推理服务来处理敏感数据。

 

放在一起看,这次升级是在原有模型性能优势之上,又补上了几块关键拼图:云资源调度、后训练、模型单元化部署、机密推理安全体系等。几块一起发力,让大模型调用变得更实用、更省钱,也更安全。

四、没人愿意再“从零开始”,阿里云百炼 Agent 平台企业版已发布

 

从市场角度来看,政企、金融、医疗等行业在采购云服务时,始终受困于一种不完美的平衡。

 

公有云上手快、性能强,但数据边界与合规要求是跨不过的门槛;私有化部署虽有安全感,但往往陷入“模型、工具、流程”极其复杂的运维战泥潭,开发周期长、技术更新慢。

 

1 月 7 日,阿里云百炼企业版的发布,为市场提供了一个既保留数据主权,又拥有云端顶级效率的方案。

 

企业版支持专有云、本地化及 VPC 隔离,百炼平台将云端的成熟能力“下沉”至企业环境。更重要的是,百炼平台企业版支持源码级交付。这不仅仅是技术开放,更是给予企业自主演进的确定性。

 

企业不再需要买一堆零件回去组装,而是直接获得一个在自身安全边界内运行的 Agent 基座。

 

事实上,企业版也并非新功能的简单集合,而是将百炼平台“1+2+N”体系(顶级模型、成熟范式、核心组件)封装为完整的交付体:

 

双代码统一:兼顾业务验证的敏捷性与复杂逻辑的深度定制。

 

多模态 RAG:激活企业沉睡的音视频与文档资产,转化为实时知识。

 

Trace 与 Evaluate:将 Agent 的黑盒行为拉到台面上,让调试与迭代成为标准工序。

 

大规模组织的管理诉求:企业版强化了多租户部署、SSO 账号集成以及细粒度的权限审计。这些功能解决了 IT 部门的核心忧虑——让 Agent 的应用在组织内部不仅“能跑通”,更“可治理”。

 

一个行业走向成熟的标志,是目光从技术指标移向业务价值的“深水区”。

 

阿里云百炼 Agent 平台企业版,本质上在扮演“AI 时代技术中台”的角色。从行业趋势上看,未来企业大概率将不会从零开始建设 AI 能力,而是直接基于一个完整、成熟的技术中台起步。

 

这意味着,在一年的野蛮生长后,留给企业 AI 试错的窗口期正在关闭。

 

展望 2026 年,Agent 应用爆发增长几乎已成共识。Gartner 预测,到 2026 年底,40%的企业应用将集成任务型 AI agents(相比 2025 年不足 5%),这也标志着 Agentic AI 正从概念走向主流生产环境。

 

对阿里云这样的全栈人工智能服务商而言,这将是多年技术积累转化为业务增量的红利期;对使用模型与 Agent 的企业客户而言,也将是 Agent 正式进入“拼效率、拼落地”的竞争元年。

撰稿:李文朋

编辑:王一鹏

最近,“Meta 以 20 亿美元收购 Manus”的消息传得很热。

Manus 曾被嘲讽“套壳”,但业内人士认为,虽然 Manus 整体架构和理念不算颠覆式“新”,但在任务连通性、容错、回退机制等实现上,极度考验工程能力,远不是“换个皮”那么简单。

 

在 Manus 创始团队与媒体的最近一次访谈中,联合创始人季逸超提出目前 Manus 定位只是一位“通用型助手”,帮普通人把复杂工作流做完,不能完全替代用户本身。这也是因为在 ToC 场景里,普通用户对体验要求很苛刻——慢一点不行,错一点也不行,Manus 团队很清楚这一点。

 

如果说 ToC 用户已经够“难伺候”,那 ToB 客户对 Agent 的要求只会更高:一方面,企业希望 Agent 真正“上生产”,意味着要接入复杂的权限体系、业务系统和合规要求;另一方面,任何一次错误操作、脏数据写入、流程走错,带来的代价都远比个人用户高得多。

 

所以会看到,过去一年很多企业在这条路上吃了不少苦:投入人力、投入预算,最后做出来的 Agent 用不了。MIT《2025 年商业 AI 现状》报告里提到,约 95%的生成式 AI 试点项目很难进入生产环境,很多最终都卡在上线前后。

 

问题出在哪?就在于这些一连串的工程难题。

 

比如代码标准不统一、系统接口五花八门、工具调用不稳定、开发周期被拉得很长;数据资产混乱、想用调不出;安全合规和权限管理一碰就痛;甚至出现“越用越退化”的优化难题。

 

说到底,并不是模型不行,也不是工程师不会做,而是整个 Agent 开发还不够成熟,大家还在摸索阶段,没有提前规划一套更清晰、更稳定的“做法”。

 

所以,国内的云厂商开始认真思考一个问题:到底怎样才能帮助企业把 Agent 的难题解决掉?有没有一种更适合落地的开发范式?

 

2025 云栖大会上,阿里云 CTO 周靖人就曾提出过「AI 时代的 Agent 开发范式」。而在 1 月 7 日,阿里云百炼对“1+2+N”体系和开发范式做了一次更系统的升级,把它落成一个工程化的体系。

 

这套“1+2+N”体系的想法并不复杂,本质是把 Agent 落地拆成三层:

 

稳底座(1):把模型和云资源这些基础能力做稳定、可扩展、可治理。地基不稳,再漂亮的 Agent 也只能停在 PoC。

 

定范式(2):给企业一套把 Agent 做成“工业产品”的开发与运行体系,能开发、能部署、能迭代,交付不再反复折腾。

 

理杂活(N):把真实业务里最难、最碎、但最致命的集成、权限、评测、成本这些“脏活累活”,做成可插拔的组件,让企业能按需拼装。

 

从这个角度看,这次阿里云百炼迭代背后体现的是一种更务实的方向:要用更工业化的方式,让企业的 Agent 在真实业务里跑起来。

 

一、“N”:通用大方案,不如啃硬骨头的“高手组件”

 

经过大量 Agent 的试错,企业如今在启动一个 Agent 项目时,最先拎出来掂量的往往不是模型,而是数据怎么处理与调用、安全问题能不能搞定、上线后怎么评估和优化。

 

这些硬问题不先解决,再漂亮的 Agent 构想也很难真正走进生产环境。而在阿里云百炼的“1+2+N”体系里,“N”恰恰就是优先来啃这些硬骨头的。

 

更关键的是,这一次“N”做了很大的升级:它把落地过程中那些最常见、最难啃、最容易反复踩坑的环节抽象出来,沉淀成一组可插拔、可组合的模块化组件。Agent 开发的难题看起来五花八门,但很多难题其实有共通的解法,可以被提炼、被复用。

 

“N”组件的存在,可以让企业缺什么就用什么、按需组合,把时间花在业务价值上,而不是重复造轮子。

 

这次升级里,一个直观的变化在应用广场:阿里云百炼把同类 Agent 做成了十多个精选合集,提供新的多模态模板,支持免登录体验,也能一键调用 API,把“试试到跑起来”的路径压得更短。

 

真正决定“能不能落地”的挑战,还有数据连接与知识管理、安全与权限控制、可观测与持续优化等问题。

 

企业做 AI 转型,数据治理永远是“卡脖子”环节。尽管大家都知道数据重要,但真落到工程上,标注、清洗以及让模型读懂私有数据的成本极其高昂。

 

目前,企业内部约 80%的数据以 PDF、图像、视频或会议录音等非结构化形式存在。据 IDC 预测,这些数据多处于“不可检索、不可复用”的沉睡状态。随着全球数据量预计在 2026 年激增至 221ZB,如何将这些碎片资产转化为 Agent 可调用的知识,成为企业发展的关键。

 

阿里云百炼的思路是把这条链路做成“工具化”:用多模态 RAG、多模态数据库、Connector 连接器,把数据处理变成更工业化的流水线。

 

多模态数据库通过智能解析、分类归档,打破图像/音频/视频等模态壁垒;多模态知识库 RAG 不再局限于纯文本,支持数十种格式的高精度解析,包括扫描件 PDF、复杂报表、音视频会议记录等。

 

在 Workflow 层面添加多模态文件处理与生成节点,同时提供覆盖 Chunking、Embedding、(多模态)Embedding、Rewrite、Retrieval、ReRank 等在内的向量化全流程能力,用于检索与消化企业数据资产。

百炼平台还提供开箱即用的 RAG 工具,企业无需自建复杂的向量库与检索链路,也能获得高性能的知识检索与生成能力。

 

把知识库做起来只是第一步。要让 Agent 真正有用,它就得能接入实时数据。然而,长期以来 ERP、CRM 等异构系统间的集成成本高昂,导致 65%的企业受访者认为业务系统沦为新的“数据孤岛”。

 

百炼平台推出的 Connector(企业级数据连接器),就是想把这个门槛降到最低。

 

通过 Connector,企业可以一键对接飞书、语雀、MySQL 及 OSS 存储;连上之后,这些数据既能直接喂给知识库,也能驱动工作流跑起来;平台还提供数十种预置工具(Tools),支持用自然语言直接查询或检索数据等。

 

当然,数据一旦接进来了,真正棘手的问题也随之出现:权限边界与责任归属难题。

 

长期以来,很多 Agent 在企业业务中多以匿名形式存在。这种“身份透明”导致操作链路难以溯源,不仅无法明确执行指令的主体,更埋下了越权操作的隐患。

 

为此,百炼平台引入 Agent Identity 组件,将 Agent 纳入企业身份治理的范畴。

 

通过集成 Okta、EntraID 等主流系统,平台为每个 Agent 分配数字身份,使其行为从孤立的匿名调用转变为绑定主体、可供审计的合规操作。

 

百炼平台也将传统的“常驻权限”升级为“按需授权”仅在执行任务时获得短期令牌,任务结束权限即刻回收。

 

配合权限降级机制,Agent 的边界被严格限制在用户授权范围内,确保无法越权。全链路审计日志则让每一步决策都透明可查,解决了企业“敢不敢给权限”的顾虑。

 

针对执行环境安全,百炼平台也构建了 Sandbox(沙盒)物理隔离屏障。当 Agent 处理外部代码或第三方数据时,系统可以利用虚拟化技术将其限制在独立空间内,精简系统调用并严控网络访问。

 

每一个任务会话均在“即用即弃”的容器中运行,执行完毕立即重置,彻底阻断了数据残留与交叉污染。平台同步引入实时监控与会话回放,一旦监测到异常行为将立即终止任务。这种设计为 Agent 提供了“受控下的自由”:在屏障内保持灵活性,在边界外确保系统安全。

 

而当 Agent 真正跑进业务之后,新的共性难题也会浮现:怎么评估、怎么持续改进。

 

与传统软件不同,Agent 的执行具有非确定性:即便输入相同,也可能因模型的随机性、工具调用顺序或上下文波动产生不同的输出。这导致开发者难以追踪 Agent 决策逻辑,在任务失败时无法精准定位是模型、工具还是流程缺陷。

 

百炼平台通过 Trace(可观测)与 Evaluate(评估)组件,实现了从“黑盒”到“透明”的转变。

 

Trace 组件提供完整的执行轨迹追踪,清晰复现了从思考(Thought)、行动(Action)到观察(Observation)的每一步。开发者可以判断哪一步耗时最长、哪个工具失败率最高,或是在哪个环节陷入了逻辑死循环。

 

结合 Token 消耗、响应速度等量化指标,这些数据可通过 Grafana 进行可视化监控,构建起实时的生产环境观测能力。

 

基于此,Evaluate 则建立了体系化的评价标准。

 

在任务完成度评价方面,百炼平台可以通过衡量目标满足率与输出质量对 Agent 进行评分;并支持“模型评测(LLMasJudge)”、专家打分与人工复查相结合的混合模式,对失败任务进行深度归因。

 

可以说,基于日志(Logs)、指标(Metrics)与追踪(Traces)的三大支柱,百炼平台设计了一个“评估—优化—验证”的持续迭代闭环。这种由数据驱动的迭代机制,也驱动着 Agent 实现“越用越好用”的工程闭环。

 

相比于自建底层架构,直接调用百炼平台的成熟组件能让开发周期缩减数倍。以 RAG 系统为例,以往搭建搜索和解析链路需要数周,现在利用多模态 RAG 组件,几个小时就能跑通。

 

企业不需要为每个 Agent 单独开发身份认证或数据接口,一套 Agent Identity 就能管好所有 Agent 的工号,一个 Connector 就能接通全公司的数据源。

 

放在阿里云百炼“1+2+N”体系中,组件化正填补模型到业务之间的最后一块拼图:模型提供计算力,开发范式定好流程,而这“N”个组件则专门负责解决数据怎么连、权限怎么划、效果怎么评、安全怎么管这些具体的“杂活”。

二、“2”:“下一代”Agent,需要新开发范式

 

“N”组件把坑填平,只解决了“这事能不能接得上、管得住”。企业真正要把 Agent 变成长期能用的工业生产能力,还得解决另一个现实问题:怎么开发、怎么协作、怎么迭代。

 

阿里云百炼“1+2+N”体系里的“2”,就负责这一点,它涵盖两种开发方式(低代码+高代码),以及配套 Agent 开发平台,通过同一套平台和运行时,分别服务两类人、两种交付方式。

 

为什么要做成“2”种模式?因为企业落地 Agent 的过程,基本就是两条路同时走:想快速试点、尽快看到效果,低代码更省事、更快;真要进核心业务、对接复杂系统,高代码才够灵活、够深。

更现实的是,企业在代码协作上存在长期的“割裂”:低代码不够用,高代码效率低。产品经理用低代码搭建的草案,往往需要技术团队用高代码重新开发,而这种重复劳动会导致业务逻辑在传递中失真。

 

为了让 Agent 更快、更深地融入业务,百炼把低代码和高代码“打通”:企业可以从低代码起步做验证,再逐步演进到高代码做优化,形成一种更自然的渐进式开发,让真正懂业务的人与懂技术的人有机协作。

 

据 Gartner 的预测,到 2028 年,企业里相当一部分 Agent 应用会由业务人员主导搭建。双开发模式很可能会成为 Agent 走向工业化落地的一种主流形态。

 

但“2”的意义还不止是“怎么写代码”。更重要的是:下一代 Agent 本身就需要新的开发范式。

 

过去的一年,很多企业里的 Agent 实际上还停留在比较“表层”的形态:一种是以提示词工程为核心、更多承担辅助角色的 Copilot;另一种是能处理重复流程、严格按预设步骤执行的“数字员工”。它们能提升效率,但往往缺少主动规划与闭环执行能力。

 

Agent 不应仅“被告知怎么做”,而是“应该主动思考怎么做”。

 

因此阿里云百炼提出了 Agent2.0:未来的 Agent 要能围绕目标自主规划,把复杂问题拆成可执行的小任务,过程中还能根据反馈调整策略,最后交付更稳定、质量更高的结果。

 

按照这个定义,Agent2.0 的核心链路是“规划—执行—反思”。

 

而现实里很多 Agent 开发失败,问题往往是开发范式还停留在老路上。传统那种线性链路(用户 →Agent→ 模型 → 输出)有三个硬伤:没有规划,就很难应对动态场景;没有反馈与纠错,走偏就很难拉回来;没有长期记忆,交互体验容易断裂。

 

为了能承载 Agent2.0 的生产级落地,百炼平台对开发范式做了系统升级:AgentScope 从过去偏“开源写代码”的工具形态,演进为覆盖 Agent 全生命周期的工业化开发平台。

第一步,是把“上手门槛”压到尽量低。

 

一方面,AgentScope 做了对主流模型能力的统一集成,内置 100+预训练模型,拿来就能用。

 

另一方面,百炼平台提供了一批可复用的智能体库,比如交易智能体(EvoTraders)、调研智能体、金融分析智能体、数据科学智能体(Data-Juicer)、浏览器使用智能体、语音智能体等,减少从零开始的成本。

 

第二步,是围绕更高级的 Agent2.0,把“协作与执行”能力补齐。

 

AgentScope 主要通过三块来支撑:

 

多智能体编排:引入基于 Actor 模型的分布式架构,支持多个专业 Agent 的并行协作与自动调度。研究表明,协作模式任务成功率比单一 Agent 高出 90.2%。

 

智能体上下文管理(长期记忆):深度适配 Mem0、ReMe 等记忆系统。使得 Agent 能够自主存储并检索历史交互中的关键信息,在后续任务中实现能力的持续迭代。

 

工具调用能力:全面兼容 StreamableHTTP、SSE、STDIO 等主流接口标准。通过支持 AnthropicAgentSkill 规范,在运行时即可动态加载新工具或移除冗余资源。

 

在工具调用这层,ReAct 这类“边想边做”的范式,也被不少实践证明更容易形成任务闭环:学术基准测试中,ALFWorld 任务只需 2 个示例即可达到 71%的成功率,高于强化学习模型的 37%;在复杂任务中,准确率相较纯 FunctionCalling 提升约 15%–20%,成本比 CodeAct 低 78.9%。

 

在 Agent2.0 优化与部署阶段,阿里云百炼通过 AgentScope-Studio+AgentScope-Runtime 打通了全生命周期的工业化链路。

 

AgentScope-Studio 可通过自定义多维表现指标,评估工作流设计的合理性;提供从输入到输出的全链路追踪与可视化,让 Agent 行为与决策过程实现“可观测、可复盘”。

 

百炼平台利用评测结果持续改进,让失败样本成为训练资产,形成“评测→优化→验证→再优化”的迭代闭环,实现从“盲目调参”到“数据驱动优化”的范式转换。

 

在落地部署环节,AgentScope-Runtime 支持 Docker、K8S、ACK、Serverless 等多种部署形态;通过 Agent-as-a-Service 将 Agent 封装为可独立调用的 API 服务,兼容 A2A 与 ResponseAPI 等协议,便于集成、弹性扩缩与快速迭代。

 

如果把阿里云百炼的开发范式拆开来看,其实就是从“构建”走向“运营”的一个完整闭环。

 

前半段构建,重点是更快、更省力地把东西搭起来:

 

用可选智能体模板减少重复劳动;用多智能体编排与工作流把复杂任务拆成可协作的子任务;用高低代码一体化实现统一开发与交付;通过 ReAct 等方式完成多任务的规划、执行与自我纠偏,再结合用上下文和长期记忆支撑长链路执行等。

 

后半段上线运营,就是做让它智能地跑起来:

 

用可观测和自动化评测把效果变成可量化的指标;打通真实系统和数据源,拿到反馈并持续优化;在企业既有基础设施上实现更便捷的部署与稳定运维;同时借助 Identity、模型单元专属部署、机密推理等能力,把权限、安全与合规治理补齐。

 

这套开发范式的最大亮点,就是它统一按照“工业级 Agent2.0”的标准做事:高效的开发体系+可持续的反馈闭环+便捷可靠的上线部署。

 

三、“1”:模型优势之外,深挖“模型服务”工程

 

最后,无论是组件化拼装,还是低/高代码协作,最终都要落在同一个问题上:模型调用能不能稳定、能不能扛流量、能不能控成本、能不能过合规。

 

所以“1”是整个体系的地基——模型与云服务底座把推理服务、弹性、部署形态与安全边界做成统一供给,保证上层“能跑起来,也跑得久”。

 

很多企业在用 Agent 的过程中,卡住的往往不是“模型会不会”,而是一些更现实、更工程的问题:1)延迟、并发、稳定性跟不上真实业务流量;2)成本容易失控(链路长、多轮工具调用、重试一多就更明显);3)部署和合规麻烦(私有化、混合云、权限边界、数据隔离等)。

 

在调用模型的时候,企业最关心的也无非就两件事:成本与性能。为此,百炼平台提供了一套云资源调度组合拳:“异步调用+闲时调度”。

 

以前搞大规模的数据清洗、标注,或者是分析长视频,这些任务不仅计算密集,而且耗时漫长。最头疼的就是走“同步调用”,跑到一半接口超时了,任务断掉,前面全白干。

 

有了异步调用就省事多了,它像寄快递一样,你把任务丢给后台,拿个任务 ID,就可以去干别的。不用在那儿死等结果,等服务器处理完了你再回来取就可以。

 

而“闲时调度”更像“错峰用电”:不着急的任务挪到资源空闲的时候跑,单价更划算,整体资源利用率也更高。阿里云百炼官方给出的数据是,动态调度后闲时推理成本可降低 50%。对需要处理海量数据的企业来说,这种节省是实打实的。

 

此外,阿里云百炼这次把“模型服务能力”也做了系统升级,主要围绕四块:模型后训练、专属模型单元部署、平台可观测、推理安全防护,系统性地”深挖“模型的服务能力。

 

先从选型说起。百炼平台把模型体验中心做了结构性重构,把在线模型的能力做成更直观的“能力图谱”,支持文本、视觉理解、图像/视频生成、语音交互等全模态体验。

 

这样企业就不用靠猜,也不用“盲选”,可以在平台上直接对比不同模型在具体场景下的表现,再做选择。

 

模型选定之后,是否“实用”往往取决于后训练。很多企业真正需要的不是通用能力,而是用自家数据和业务知识微调出来的“专家模型”,这才更贴近业务,也是企业的核心壁垒。

 

模型训完后,真正容易被“拦住”的常常是部署。自建集群运维复杂、成本也难估:为了应付峰值不得不预留一堆算力,平时又闲着浪费;多租户环境下的数据隔离和性能争抢,会让企业心里不踏实。

 

阿里云百炼推出“模型单元”部署,其实相当于给企业开了条“专属通道”,减少资源争抢带来的不确定性,让高并发和低延迟更稳定。

 

同时提供全托管的 Serverless 方式:系统会跟着实时流量自动扩缩容——忙的时候自动扩,保证体验;闲的时候自动收,尽量省成本。

 

官方给出的测试数据里,模型单元部署相对传统自建集群方案,推理性能提升超过 1.3 倍,并发能力提升超过 1.5 倍。对企业来说,这类提升的意义很直接:同样的业务量,成本更低性能更好。

 

此外,调用模型处理数据时,最难绕开的是安全——尤其在金融、医疗、法律等高敏行业。很多企业不是不想用,而是卡在一句话:数据给到模型,会不会出事?

 

为此,百炼平台推出模型“机密推理服务”,依托三层安全架构,为企业构建起全链路的数据保护围墙:

 

第一层是基于 CPU/GPU 硬件可信执行环境的机密计算能力,将模型推理运行在硬件隔离的安全区内。即便云侧其他组件遭受攻击,敏感数据也难以被窃取或泄露。

 

第二层是端到端加密的可信链路:实现了从用户端到云端计算中心的全程加密传输。数据在加密状态下进入 TEE 区域处理,计算结果在加密状态下返回,确保数据在“流动”与“处理”的全生命周期中始终处于保护伞下。

 

第三层是公开审计的可信服务:平台提供可验证的身份与安全能力证明。企业不仅能自主校验服务安全性,更能以此作为合规背书,向管理层、审计机构及客户证明其 AI 系统的高安全性。”

 

在使用体验上,机密推理被做成了“一键交付”的形态:企业只需要在模型库中选择支持机密推理的版本,一键部署到 TEE 隔离环境,就能直接调用机密推理服务来处理敏感数据。

 

放在一起看,这次升级是在原有模型性能优势之上,又补上了几块关键拼图:云资源调度、后训练、模型单元化部署、机密推理安全体系等。几块一起发力,让大模型调用变得更实用、更省钱,也更安全。

四、没人愿意再“从零开始”,阿里云百炼 Agent 平台企业版已发布

 

从市场角度来看,政企、金融、医疗等行业在采购云服务时,始终受困于一种不完美的平衡。

 

公有云上手快、性能强,但数据边界与合规要求是跨不过的门槛;私有化部署虽有安全感,但往往陷入“模型、工具、流程”极其复杂的运维战泥潭,开发周期长、技术更新慢。

 

1 月 7 日,阿里云百炼企业版的发布,为市场提供了一个既保留数据主权,又拥有云端顶级效率的方案。

 

企业版支持专有云、本地化及 VPC 隔离,百炼平台将云端的成熟能力“下沉”至企业环境。更重要的是,百炼平台企业版支持源码级交付。这不仅仅是技术开放,更是给予企业自主演进的确定性。

 

企业不再需要买一堆零件回去组装,而是直接获得一个在自身安全边界内运行的 Agent 基座。

 

事实上,企业版也并非新功能的简单集合,而是将百炼平台“1+2+N”体系(顶级模型、成熟范式、核心组件)封装为完整的交付体:

 

双代码统一:兼顾业务验证的敏捷性与复杂逻辑的深度定制。

 

多模态 RAG:激活企业沉睡的音视频与文档资产,转化为实时知识。

 

Trace 与 Evaluate:将 Agent 的黑盒行为拉到台面上,让调试与迭代成为标准工序。

 

大规模组织的管理诉求:企业版强化了多租户部署、SSO 账号集成以及细粒度的权限审计。这些功能解决了 IT 部门的核心忧虑——让 Agent 的应用在组织内部不仅“能跑通”,更“可治理”。

 

一个行业走向成熟的标志,是目光从技术指标移向业务价值的“深水区”。

 

阿里云百炼 Agent 平台企业版,本质上在扮演“AI 时代技术中台”的角色。从行业趋势上看,未来企业大概率将不会从零开始建设 AI 能力,而是直接基于一个完整、成熟的技术中台起步。

 

这意味着,在一年的野蛮生长后,留给企业 AI 试错的窗口期正在关闭。

 

展望 2026 年,Agent 应用爆发增长几乎已成共识。Gartner 预测,到 2026 年底,40%的企业应用将集成任务型 AI agents(相比 2025 年不足 5%),这也标志着 Agentic AI 正从概念走向主流生产环境。

 

对阿里云这样的全栈人工智能服务商而言,这将是多年技术积累转化为业务增量的红利期;对使用模型与 Agent 的企业客户而言,也将是 Agent 正式进入“拼效率、拼落地”的竞争元年。