标签 企业AI 下的文章

Anthropic 由 7 位前 OpenAI 核心成员创立,他们曾参与 GPT-2、GPT-3、Scaling Laws 及 AI 安全研究。Daniela Amodei 就是其中之一,她是 Dario Amodei 的妹妹,也曾任 OpenAI 的安全与政策副总裁,现在是 Anthropic 联合创始人兼总裁。

 

2021 年初疫情期间,Dario 冒雨向 Eric Schmidt 路演,后者成为 Anthropic A 轮投资人。与其他大模型公司不同,Anthropic 会将大模型使用中的风险公开,比如 Claude 在极端“生存威胁”情境测试中,多数情况下会选择勒索,类似操作在行业中极少见。

 

在 Amodei 近期在接受 CNBC 采访中,她谈到了如何在支出方面控制成本、如何保障人工智能安全以及 2026 年上市的可能性。

 

Amodei 认为,“AI 安全”不是商业负累,而是核心优势,企业客户对安全性的高要求,恰好匹配其创立初衷,这一理念在早期被认为“激进”,如今成为 B 端竞争壁垒。Anthropic 是唯一能同时登陆微软、亚马逊云科技、Google 三大云平台的前沿大模型厂商,企业客户需求曾数次超过其算力供给能力。

 

另外,她还提到,Anthropic 以“不要相信炒作”为内部价值观,拒绝博关注,通过 B 端真实价值锚定长期方向,避免被行业泡沫裹挟。

 

Anthropic 在支出和算法效率方面采取了更为谨慎的态度,而其竞争对手 OpenAI 则承诺投入 1.4 万亿美元用于计算。她提到,即便行业算力投入规模惊人,但“更好的硬件回报极高”,哪怕模型性能仅提升 0.01,价值也足够可观;且前沿模型的算力需求仍在指数级增长,需提前大规模布局。

 

下面是详细对话内容,我们在不改变原意基础上进行翻译和删减,以飨读者。

 

Anthropic 起源:离开 OpenAI 为什么值得

 

主持人:这家公司创建初期,当时世界处在什么状态?你们觉得 Anthropic 要特别解决什么问题?

 

Amodei:Anthropic 就要迎来五周年了。说到最初,其实我和另外六位联合创始人,当时都在 OpenAI 一起工作。我们一起参与过很多不同的项目,从把一些当时规模最大的模型做起来,比如 GPT-2、GPT-3,到很多早期的语言模型工作,后来都成了大模型革命的一部分;还有 scaling laws 相关的研究,以及大量偏技术安全方向的工作,比如可解释性和对齐。

 

在某个时间点,我们逐渐形成了一个非常清晰的想法:我们想建立一家真正站在 AI 前沿、开发变革性技术的公司,但同时对系统的安全性和可靠性保持一种极其严格、近乎执念式的关注。那时我们觉得,与其在原有框架里继续做,不如自己出来,把这件事从头到尾做到极致。Anthropic 就是在这样的背景下诞生的。

 

如果把时间背景说清楚,那是 2020 年的冬天,到 2021 年初。大家都被封在家里,正值疫情高峰。那种感觉很复杂:机会既让人兴奋,又让人害怕。

 

主持人:你之前提到过一个像电影画面的瞬间,2021 年 1 月,在 Dario 的后院,大家都戴着口罩,Eric Schmidt 也在,下着大雨,你们在帐篷下面向他做介绍。你会把它看作公司的起始点吗?

 

Amodei:是的,那一幕真的很难忘。具体日期我可能记不太准了,但应该是 1 月初的某一天。我们就在 Dario 家后院,正下着雨,我们临时搭了一个帐篷,我们私下都叫它“派对帐篷”,大家就挤在下面。

 

后来,Eric 成了我们的 A 轮投资人。但当时,其实我们只是刚刚做出“要出来创业”的决定,一切都还非常早期,对公司具体会长成什么样,说实话并没有清晰的答案。我们只有一个特别大的愿景、特别宏大的想法。

 

还有一个小插曲:那时候我其实已经怀孕八周了,怀的是我儿子。我觉得在所有联合创始人里,可能只有 Dario 知道这件事,甚至我都不确定他当时是不是已经知道了(笑)。所以那段时间,真的发生了太多事情:口罩、保持社交距离,一切都很混乱。但与此同时,我们又怀抱着一个巨大的梦想,无论在个人层面还是职业层面,那都是一个重大时刻。

 

主持人:那一刻,你们觉得 OpenAI 做错了什么,才让“离开”这件事即使有很大风险也值得?

 

Amodei:我们并不是“逃离”什么,更像是在“奔向”某个目标。我的意思是,我们这群联合创始人,彼此认识的时间其实非常久了,不只是 OpenAI 这段经历。比如 Dario、Chris Olah、Tom Brown 之前就在 Google Brain 一起共事;Jared 曾是 Dario 的研究伙伴;Dario 和我是兄妹。我和 Chris 已经认识十三年了。

 

所以我们是一群长期一起工作、在价值观上高度一致的人。我们都深信,人工智能有着极其巨大的正向潜力,但要真正释放这种潜力,必须极其严肃地对待风险问题。

 

在某个时间点,我们开始想,如果能从一开始就创办一家把“安全与可靠性”放在一切核心位置的公司,会怎么样?我们内心其实也相信,这样的理念不仅有伦理意义,从商业角度看也同样有价值,甚至会成为一种优势。

 

当时很多人认为,“安全”和“商业成功”是相互冲突的,但我们反而相信,这两件事是高度相关、彼此强化的。现在回看,这个想法在当时确实听起来很激进、很新,但那正是我们创立 Anthropic 的根本动因之一。

 

主持人:把“我们非常重视安全”这句话,真正落到可执行的策略上来看,现在最让你担忧的是什么?

 

Amodei:我觉得在安全层面,大概可以分成两个方面来说。首先是技术安全本身,这里面其实还有大量非常有意思、但尚未被完全发现和解决的技术问题。我认为 Anthropic 一直在努力成为这个领域的引领者,至少是积极推动者。无论是我们在机制可解释性上的研究,还是 Constitutional AI,本质上都是在做一件事:想办法把“护栏”直接内建进模型里。我们的技术团队花了非常多时间去琢磨,怎样才能真正从模型内部把这些安全机制做好。但现实是,这件事永远做不完,而且模型变聪明的速度实在太快了。

 

其次是技术对整个社会层面的影响。这一点我们也公开谈过很多次。Anthropic 在这方面相对比较“异类”,我们会发布大量研究,去探讨人工智能可能带来的社会影响。比如我们最近发布过一份报告,讨论 AI 可能带来的经济层面影响,以及对劳动力市场的冲击。

 

我们之所以尽可能透明,是因为我们真的认为,提前面对潜在问题,总比事后补救要好。作为一家公共利益公司(Public Benefit Corporation),我们觉得公开讨论这些问题本身就是我们的责任。当然,我们并不认为 Anthropic 能单独解决所有问题,但我们必须和公民社会、政府以及更多相关方一起讨论:当人工智能开始能够完成大量人类日常工作的那一天,世界会发生什么变化。

 

主持人:“激进透明”似乎已经成了你们文化的一部分。你们也发布过研究,显示在面对“生存威胁”的极端情境时,Claude 在绝大多数情况下会选择勒索,而其他模型也有类似表现。你们把这些东西公开出来,几乎就像一条公共安全提示:这是这项技术现在能做到的事情,而这正是我们要解决的问题。那在这些案例之后,当你们进行方向调整时,最紧迫的安全重点是什么?

 

Amodei:确实,这种做法在行业里并不常见。很多人都会觉得,一家公司这么公开地谈论自己技术的风险和潜在伤害,是一件很不寻常的事情。我们之所以这么做,有几个原因。

 

第一,作为一家公共利益公司,这本身就是我们使命的一部分。我们确实相信 AI 有巨大的正向潜力,比如我们真心觉得,未来它可能在治愈疾病等领域发挥颠覆性的作用。但要真正实现这些美好愿景,就必须把最棘手、最困难的问题先解决好。从这个角度看,越是坦诚地谈风险,对所有人反而越有利。因为我们的目标不是制造恐慌,而是防止坏事发生,好让这些积极的成果真正落地。

 

第二个原因是,我们相信,更充分的信息和更开放的讨论,通常会带来更好的结果。我们很幸运,处在一个可以第一时间看到风险信号的位置,也有条件把这些信息讲清楚。比如我们可以明确地说:Claude 可能被用于网络攻击,这是一件必须高度警惕的事情。而且如果这种情况发生在我们身上,很可能也会发生在其他前沿模型开发者身上。

 

在安全、信任与防护这些领域,很多工作其实是可以、也应该跨公司协作的。把趋势、问题用清晰、易懂的方式公开出来,本身就是降低整体风险的一部分。

 

我们经常会做一个反事实思考:如果你是一家上一代的技术公司,比如社交媒体平台,如果可以回到过去,提前知道这些平台后来带来的社会后果,你会不会选择做出不同的设计决策?Anthropic 想做的就是尽量在今天问自己这些问题。我们当然无法预测未来,但至少要问清楚:如果我们已经意识到某些风险的可能性,那我们今天有没有尽最大努力去讨论它、应对它、降低它?

 

在算力上是不是花太多了?

 

主持人:回看过去半年,整个行业签下的算力合同数量可以说非常惊人。与此同时,Gemini 在模型性能上也明显追近了差距。不少分析师指出,Google 的优势在于它几乎掌控了整个技术栈,从芯片、云业务,到各种可以直接部署技术的产品入口。而 Anthropic 现在也开始自建一方基础设施,在既有云资源承诺之外,又投入五百亿美元,在纽约和德州建设数据中心。这是不是你们赢得 AI 竞赛战略的一部分?要想胜出,就必须自己做基础设施,掌控更多垂直整合的能力吗?

 

Amodei:这是个很有意思的问题。人工智能领域的一个核心挑战在于,如果你想训练真正处在前沿的大模型,对算力以及相关资本的要求实在是太高了。Anthropic 一直以来的目标,是在这种“必须大量消耗算力”的现实下,尽可能理性、高效地使用我们手头的资源。

 

有意思的是,长期以来,Anthropic 拥有的算力和资本,其实都只是竞争对手的一小部分,但在过去几年中,我们却相当稳定地推出了性能最强、效果最好的模型之一。我认为,这一方面来自团队本身的质量,另一方面也来自我们的价值取向,即用更少的资源,做更多的事情。

 

当然,面向未来,算力需求确实会非常巨大。如果我们要随着公司规模扩大,继续站在技术前沿,那毫无疑问,我们也需要更多算力支持。

 

主持人:粗略算一笔账,Anthropic 的算力投入大概在一千亿美元量级,而你们的竞争对手 OpenAI,据说已经到了万亿美元级别。从整个行业来看,我们是不是在算力上花得太多了?投入是否已经超过了大模型目前能够可靠变现的能力?还是说,这是服务用户所必需的?

 

Amodei:很多被拿出来讨论的数字,其实并不完全可比,因为这些交易的结构本身就差异很大。有些是提前锁定购买权,有些是长期承诺,形式并不一样。

 

但从根本上讲,整个行业押注的是这样一个判断:如果你想在未来几年里拥有训练前沿模型所需的硬件资源,就必须非常早地、非常大规模地提前投入。如果你去问我的一些技术同事,他们会说一件很有意思的事:即便我们是 scaling laws 的提出者之一,理论上早就相信“更多算力会带来更好结果”,但实际进展依然一次次超出我们的预期。

 

Dario 也公开谈过这一点:无论是模型性能还是收入规模,很多指标看起来都呈现出一种指数级的增长。当然,我们内部也常说一句话:指数增长会一直持续,直到某一天不再成立。每一年我们都会怀疑:“不可能再这样增长下去了吧?”但结果是,每一年它都继续成立。所以这确实是个无法确定未来的问题,但至少到目前为止,年复一年的性能提升,看起来仍然相当接近指数曲线。

 

主持人:过去几个月我们也频繁讨论一种“循环式交易”:模型公司、硬件供应商、云厂商之间,通过股权换芯片、资源互换等方式形成闭环。这种结构中,哪些是健康的飞轮效应?又有哪些地方值得警惕?

 

Amodei:我当然不能评论 Anthropic 以外的具体交易,更不可能讨论任何交易细节。但我想说的是,这些交易之间差异其实非常大,并不存在一种统一模式。不同参与方,对于算力和资本的理解方式本来就不一样。

 

回到 Anthropic 自身,我们一直以来都是用相对更少的资源,去完成更多事情。我们的期望是,未来这些模型提供方,确实能成为你刚才说的那种“飞轮”的一部分。事实上,我们已经在某种程度上看到了这种趋势:Claude 是目前唯一一个同时在微软、亚马逊云科技和 Google 三大云平台上提供的前沿模型。

 

尤其在企业市场,我们会持续创造出大量价值。对 Anthropic 来说,我们一直是以企业需求为优先。而在过去一年左右的时间里,有不少时间段,我们甚至出现过“需求大于供给”的情况,从算力角度来看,Claude 的需求一度超过了我们能提供的能力。

 

主持人:那在硬件层面,你们是如何考虑芯片折旧的?是按三到四年的生命周期来规划,还是会把 GPU 用到十年,把整个可用寿命都榨干?

 

Amodei:坦率说,我并不是芯片方面的专家,我的一些同事会更适合回答细节。但从宏观上看,它和大模型的发展其实很相似。每一代新的前沿模型,性能都会好到让高端用户更愿意使用新模型,硬件也是如此。新一代芯片往往在性能、成本效率、能效上都会有所提升,所以,能尽早用上新一代芯片,本身就具有很高的价值。

 

主持人:我们是不是正处在一个 AI 泡沫里?我不是说技术不真实,而是支出增长曲线,是否已经跑在了收入增长曲线前面?

 

Amodei:我会把这个问题拆成两个层面来看:技术层面和商业层面。

 

在技术层面,我们非常有信心。无论是 Anthropic 内部,还是 Dario 最近的公开表态,我们都认为,从纯技术角度看,进步并没有放缓。未来当然无法预测,但截至目前,模型仍然在以相当稳定、快速的节奏变得更强。

 

在商业层面,这个问题就复杂得多。无论技术多先进,把它真正落地到企业或个人场景中,都需要时间。关键问题在于:企业,尤其是企业,能以多快的速度真正利用这些技术?也许 Claude 5、Claude 6,在性能上依然是按同样比例提升的,但在组织内部推广和落地,可能会因为“人”的因素而遇到瓶颈:变革管理很难,采购流程很慢,很多应用场景一开始根本想不到。

 

所以,真正值得观察的是:技术扩散到经济体系中的速度,是否能持续匹配技术本身的加速速度。这也是我认为最有挑战、也最值得持续关注的问题。

 

主持人:基于刚才的讨论,你觉得我们现在是不是在模型公司,或者在硬件供应链上投入得有点过头了?

 

Amodei:从某种角度看,这个市场其实很小。说“小”听起来有点奇怪,毕竟金额巨大,但真正参与其中的玩家数量并不多。我也不完全确定该如何解读这一点,它有点不寻常。不过到目前为止,我们看到的情况是:更好的硬件,回报非常高,哪怕模型只提升一点点,比如 0.01 的性能提升,回报同样很可观。

 

在 Anthropic 的历史中,这一点几乎一直都成立。所以我不太愿意直接用“过度投资”来形容,但我确实认为,这种参与者数量有限的结构值得警惕,一旦链条中的某个环节出了问题,后果会是什么?这是个很重要、也很有意思的问题。

 

主持人:那你觉得我们现在大概处在这个周期的什么位置?不管你把它叫作泡沫破裂,还是一次正常的修正,考虑到最近出现的各种乱象和泡沫迹象,这种调整会不会在未来六到十二个月内发生?如果会的话,Anthropic 现在是否已经在为这种下行风险做准备?

 

Amodei:对于 Anthropic 来说,我们一直把自己看作是资本的理性、负责任的管理者。这一点从成立之初就是我们的重点。对我们而言,每一分算力、每一美元投入都非常重要,它们要么意味着我们能训练出更好、更安全的模型,要么意味着我们能服务更多客户。

 

我更愿意相信,我们对模型质量的预期、训练所需的算力、推理阶段服务客户所需的算力,以及我们能持续为客户创造的价值,都有一个相对合理的判断。当然,没有人能做到完美预测。但至少从一家负责任企业的角度来说,不管市场环境怎么变化,我希望我们都能处在一个相对稳健的位置。

 

至于整个市场会发生什么,这确实很难一概而论。但就 Anthropic 自身而言,做资本的负责任管理者,始终是我们的目标。

 

“我们本身就是个做 to B”

 

主持人:聊聊 Anthropic 接下来的资本路径吧。收购这条路,考虑到反垄断和你们目前的规模,基本可以排除了。那 IPO 会不会是 2026 年的一个选项?

 

Amodei:目前我们没有任何可以对外公布的具体计划。正如我之前说的,Anthropic 一直在努力以负责任的方式使用手中的资本。我们也始终在权衡:在哪里、以什么方式获得所需的资本,才是最合适的。

 

主持人:Amazon 仍然是你们最大的战略支持方,但你们的股东和合作方阵容也在不断扩大,比如 Google 既是投资方又是云合作伙伴,还有 Microsoft、Nvidia。与此同时,Google 自身也在全力参与模型竞争。当你的合作伙伴本身方向和野心并不完全一致时,你们是如何处理这些关系的?

 

Amodei:我觉得这恰恰说明了市场对这项技术的强烈需求。Anthropic 的模型能够同时在三大云平台上提供服务,本身就很有意思,甚至包括彼此之间存在竞争关系的云厂商。

 

我的直觉是,这些超大规模云厂商都在密切观察自己的客户在业务层面发生了什么。财富五百强企业可能用的是一家云,也可能是两家、三家,但现在几乎所有企业都有一个共同点:他们觉得自己必须要有 AI 解决方案。

 

而我们看到的情况是,由于 Anthropic 特别专注企业场景,我们往往正是客户最想用的那个模型。如果企业无法使用 Claude,反而会对他们的业务造成伤害。所以,对我们来说,最重要的一点就是:在客户需要的地方出现。

 

有些客户会直接用我们的一方服务,但更多客户已经和云厂商建立了长期合作关系,通过云平台接入大模型,对他们来说是非常自然的一条路径。

 

主持人:从一开始,Anthropic 似乎就不像 OpenAI 那样,急于抢占大众文化层面的心智,而是选择把筹码压在企业客户身上。事实证明,这可能是一个更聪明的选择。现在很多人都在追赶你们,试图在企业市场分一杯羹。你们当初是怎么判断,企业才是最值得投入的市场?

 

Amodei:你给我们的评价有点高了,我不敢说我们一开始就“确定”这条路一定是对的,但我觉得可以从两个方面来看。

 

第一,Anthropic 这个组织本身就非常适合做一家 B2B 公司。我们对可靠性、安全性和安全边界的重视,是写进公司基因里的。这也是我们创立 Anthropic 的初衷之一:既要释放 AI 的巨大潜力,也要尽可能降低风险。而事实证明,企业客户非常看重这一点。我从没听过哪家企业客户对我说:“如果 Claude 能多一点幻觉、多生成点有害内容就好了。”从这个角度看,企业对安全性的高要求,反而让 Anthropic 从第一天起就处在一个很有优势的位置。

 

第二,是一种更偏经济学层面的判断,当时也可能判断错了。我们认为,这些模型虽然在娱乐层面也很有吸引力,但从长期看,它们更像是帮助人类完成高价值工作的工具。无论是现在 Claude 被大量用于写代码,还是用于总结复杂信息、做金融分析和数据分析,我们在 2020 年底、2021 年初,就已经隐约看到了这样一种未来:模型可以承担大量工作场景中需要高智力投入的任务。而我们认为,这是一个非常大的市场。

 

这两个因素叠加在一起,让我们觉得,把 Anthropic 做成一家以企业为核心的公司,是一条合理的路径。

 

主持人:企业客户通常既强调安全,也永远希望有更多功能、更强的 Agent 能力。有没有一些需求,是客户明确提出来了,但因为安全护栏的原因,你们暂时还不愿意提供的?

 

Amodei:有意思的是,到目前为止,我们还没有遇到那种特别明确的场景:安全和功能之间形成了正面冲突。更多时候,挑战在于如何确保我们发布的模型始终处在前沿水平。

 

确实有过这样的情况:我们在内部已经有一个模型准备好了,但在正式发布之前,还需要做更多安全测试。客户并不会直接看到这一点,但这是我们必须坚持的过程。所以如果说安全和产品之间的“交汇点”在哪里,那大概就是:确保我们推向市场的模型,已经在安全性上做到我们能力范围内的最好。

 

“AI 原生”创业公司蓬勃发展

 

主持人:谈到规模发展,很多当初的决策其实都需要随着时间不断演化。比如一开始,Anthropic 曾明确表示不会接受来自中东的资金,但在最近一轮融资中,这个立场发生了变化。你们是如何在坚持最初的原则、以及为了在激烈竞争中生存和发展而必须做出调整之间取得平衡的?

 

Amodei:我认为,在最重要的层面上,Anthropic 随着规模扩大,其实一直坚守着自己的价值观。尤其是我们的 PBC(公益型公司)结构,以及“公共利益公司”作为北极星一样的存在,对我们非常重要。正是因为有这样一个长期愿景,当具体问题出现时,我们总会回到一个核心判断:我们现在做的事情,是否真的在为公共利益服务?是否是在努力让 AI 的转型过程走得更好?

 

当然,不同的人对“公共利益”具体意味着什么,理解上可能会有差异,但我们对新员工、候选人、投资人都非常坦诚:这就是 Anthropic,这就是我们的价值观。正因为如此,大多数情况下我们都能比较顺畅地做出判断。只是正如你所说,随着公司规模变大,确实会遇到一些处在灰色地带、更加棘手的情况。

 

主持人:有一种批评声音认为,把“安全使命”放在如此核心的位置,实际上会形成一种“可防御壁垒”,让最早成立的几家大模型实验室更容易在监管环境下维持竞争优势,而后来进入的初创公司,由于没有经历同样的积累过程,反而更难追赶。你怎么看这种说法?

 

Amodei:这点挺有意思的。虽然我现在没有具体数据在手,但我印象中,绝大多数初创公司其实都是云计算用户。真正被算力和资本门槛高度限制的,是“前沿模型”的研发。正如我们之前聊到的,要成为一家前沿模型实验室,成本确实非常高。

 

但在 Anthropic,我们看到的是一个正在蓬勃发展的生态系统,我们称之为“AI 原生”创业公司。就像五到十年前大家谈“数字原生”企业一样,现在出现了大量“AI 原生”公司:它们的产品从一开始就是围绕人工智能能力构建的,而其中绝大多数都是构建在云基础设施之上的。

 

所以我认为,我们对这个生态系统的影响,最终取决于我们是否能够持续打造行业里最优秀、最安全的模型。

 

主持人:但现在“安全”并不是一个特别受欢迎的立场。一个月前你们和 David Sacks 有过一些隔空讨论,Dario 也写了一篇文章回应。面对这样的情况,你们如何避免让外部环境干扰你们真正的技术工作?

 

Amodei:我认为 Anthropic 一直努力把重点放在“政策”而不是“政治”上。我们在很多议题上,其实能够跨越党派找到共识,而这些议题正是美国公众真正关心的事情。比如,如何保持美国在全球 AI 领域的领先地位,又比如如何确保我们开发出来的模型真正对人有益、对孩子有益、对使用它们的成年人也有益。在这些问题上,其实存在着相当多的共识空间。

 

更重要的是,人工智能仍然是一个非常新的领域。正因为如此,我们始终保持开放和好奇,去探索以安全、可靠的方式发展这项技术的最佳路径。我们也一直在学习,这也是为什么我们会大量公开发布研究成果的原因之一。

 

主持人:你现在还会去思考“有效利他主义”(Effective Altruism)吗?我知道你之前说过,这个标签在你看来已经有些过时了,也不再是公司当前叙事的一部分,但无论是早期招聘还是融资阶段,它确实曾经深深嵌入你们的创始故事里。那它现在在公司内部的文化中还留下了些什么吗?还是说,到 2025 年,这更多只是外界投射到 Anthropic 身上的一种标签?

 

Amodei:我觉得“投射”这个词可能更接近。Dario 之前也谈过这个问题。你得回到一个背景:在 AI 非常早期、差不多二十年前的时候,真正认真思考“AI 可能会变得如此强大”的人其实非常少。而恰恰是那一小撮人,往往同时也非常关注风险问题。

 

所以你会看到,早期的 OpenAI,以及后来成为 Anthropic 创始成员的一些人,最初确实是从“风险”这个角度出发的,我们在担心技术可能出什么问题。

 

但我认为 Anthropic 最大的不同之处在于:我们同样高度关注技术的“正向价值”和“上行空间”。我们一直在思考,人工智能在医学、生命科学、医疗健康、金融服务,以及整个经济体系中,究竟能带来多大的积极影响。当然,如果我们不能把它做得足够安全,事情也可能会走向非常糟糕的方向,这两点是并存的。

 

“不要相信炒作”,AGI 理念过时了

 

主持人:Anthropic 的品牌似乎自带一种“神秘感”,我不太好精准形容,但感觉公司内部的人,几乎把它当成一种信念体系。你会如何描述你所塑造的 Anthropic 员工文化?另外,我也注意到,虽然最近几个月你们变得更公开了一些,但整体来看,你们仍然非常克制,往往在真正准备好之前,很少对外释放信息。

 

Amodei:你这么说真的很善意,我不知道是不是“神秘感”,但我很感激这样的评价。对我们来说,有一个内部反复强调的价值观,就是“不要相信炒作”。这听起来好像很小,但我觉得它其实回到了我们之前讨论的那些关于经济、商业的问题。

 

Anthropic 从来不是为了博关注、抢头条而存在的。我们真正关心的是把事情做好,无论是在模型训练层面,如何以公平、负责的方式训练模型;还是在客户层面,如何每天都真正为客户提供价值。

 

现在 AI 领域的炒作非常多,而我们是一家以企业客户为核心、B2B 导向的公司,这在某种程度上让我们更加“脚踏实地”。我们的目标很简单:为企业创造真实价值。这项工作往往不那么炫目,但它能帮助我们不被泡沫裹挟,始终记得我们当初为什么要创办这家公司——我们是一家公共利益公司,我们关心的是长期价值。如果没有这个北极星,其实很容易迷失方向。

 

主持人:Yann LeCun 以及其他一些机器学习领域的“老一代”学者认为,大语言模型并不能通向 AGI,他们转而研究世界模型,认为还需要一些关键突破才能迈向下一阶段。你怎么看?你认为真正解锁 AGI 所需要的突破是什么?未来你们是否需要超越 LLM,才能在行业中保持竞争力?

 

Amodei:AGI 这个词本身就挺有意思的。Dario 也说过,很多年前,这个概念是有意义的,它帮助我们思考“什么时候 AI 会和人类一样强”。但有趣的是,按照某些定义,我们其实已经超过了这个标准。

 

比如说,Claude 写代码肯定比我强,这个门槛不高。但它也已经能在一定程度上,达到甚至接近 Anthropic 许多工程师的水平。要知道,我们雇的可是世界上顶尖的一批工程师,而他们中的不少人都会说,Claude 已经能完成他们相当一部分的工作,或者极大地加速他们的效率。这本身就很疯狂。

 

当然,另一方面,Claude 依然做不了很多人类能做的事情。所以我觉得,AGI 这个概念本身可能不是“错了”,而是有点过时了。

 

至于是否需要新的突破才能继续前进,老实说,我们并不知道。技术发展的路径,本身就是科学与工程的复杂混合体。而我觉得实验室最特别的地方就在于:不同团队会用完全不同的方式去逼近同一个目标。

 

至少从目前来看,进展并没有放缓。当然,一切都是“直到它真的放缓为止”。如果让我下注,我会说,能力还会在相当长一段时间内继续提升,我们也应该为这样的世界做好准备。

 

主持人:你和 Dario 的能力结构差异很大,你在哪些方面补足了他?你是如何帮助他把想法打磨得更锋利的?

 

Amodei:能和我的哥哥一起经营 Anthropic,真的是一种“特权”。我感觉我们认识彼此一辈子了,他在我出生前独自生活了四年,挺惨的(笑)。

 

Dario 有一种非常罕见的能力,仿佛能“看到未来”。虽然我总说没人真的知道未来,但如果真有这样的人,那大概就是他。从技术视角来看,他对技术走向、对社会和组织意味着什么,有着极其敏锐的直觉,这是一种真正的愿景型领导力。

 

而我更偏向实务型。我非常喜欢运营组织,我大部分时间都在和高管团队一起工作,比如搭建团队、招聘负责人、思考客户真正需要什么、如何为企业创造价值、如何构建让公司长期可持续的合作关系。

 

我觉得 Dario 和我彼此成就。他会不断把我拉回更宏大的视角,而我则专注于如何打造一家能长期存在、可持续发展、聚集了一群真正想做我们五年前一起立志要做的事情的优秀人才的组织。

 

https://www.youtube.com/watch?v=GMXnmaky9FY

撰稿:李文朋

编辑:王一鹏

最近,“Meta 以 20 亿美元收购 Manus”的消息传得很热。

Manus 曾被嘲讽“套壳”,但业内人士认为,虽然 Manus 整体架构和理念不算颠覆式“新”,但在任务连通性、容错、回退机制等实现上,极度考验工程能力,远不是“换个皮”那么简单。

 

在 Manus 创始团队与媒体的最近一次访谈中,联合创始人季逸超提出目前 Manus 定位只是一位“通用型助手”,帮普通人把复杂工作流做完,不能完全替代用户本身。这也是因为在 ToC 场景里,普通用户对体验要求很苛刻——慢一点不行,错一点也不行,Manus 团队很清楚这一点。

 

如果说 ToC 用户已经够“难伺候”,那 ToB 客户对 Agent 的要求只会更高:一方面,企业希望 Agent 真正“上生产”,意味着要接入复杂的权限体系、业务系统和合规要求;另一方面,任何一次错误操作、脏数据写入、流程走错,带来的代价都远比个人用户高得多。

 

所以会看到,过去一年很多企业在这条路上吃了不少苦:投入人力、投入预算,最后做出来的 Agent 用不了。MIT《2025 年商业 AI 现状》报告里提到,约 95%的生成式 AI 试点项目很难进入生产环境,很多最终都卡在上线前后。

 

问题出在哪?就在于这些一连串的工程难题。

 

比如代码标准不统一、系统接口五花八门、工具调用不稳定、开发周期被拉得很长;数据资产混乱、想用调不出;安全合规和权限管理一碰就痛;甚至出现“越用越退化”的优化难题。

 

说到底,并不是模型不行,也不是工程师不会做,而是整个 Agent 开发还不够成熟,大家还在摸索阶段,没有提前规划一套更清晰、更稳定的“做法”。

 

所以,国内的云厂商开始认真思考一个问题:到底怎样才能帮助企业把 Agent 的难题解决掉?有没有一种更适合落地的开发范式?

 

2025 云栖大会上,阿里云 CTO 周靖人就曾提出过「AI 时代的 Agent 开发范式」。而在 1 月 7 日,阿里云百炼对“1+2+N”体系和开发范式做了一次更系统的升级,把它落成一个工程化的体系。

 

这套“1+2+N”体系的想法并不复杂,本质是把 Agent 落地拆成三层:

 

稳底座(1):把模型和云资源这些基础能力做稳定、可扩展、可治理。地基不稳,再漂亮的 Agent 也只能停在 PoC。

 

定范式(2):给企业一套把 Agent 做成“工业产品”的开发与运行体系,能开发、能部署、能迭代,交付不再反复折腾。

 

理杂活(N):把真实业务里最难、最碎、但最致命的集成、权限、评测、成本这些“脏活累活”,做成可插拔的组件,让企业能按需拼装。

 

从这个角度看,这次阿里云百炼迭代背后体现的是一种更务实的方向:要用更工业化的方式,让企业的 Agent 在真实业务里跑起来。

 

一、“N”:通用大方案,不如啃硬骨头的“高手组件”

 

经过大量 Agent 的试错,企业如今在启动一个 Agent 项目时,最先拎出来掂量的往往不是模型,而是数据怎么处理与调用、安全问题能不能搞定、上线后怎么评估和优化。

 

这些硬问题不先解决,再漂亮的 Agent 构想也很难真正走进生产环境。而在阿里云百炼的“1+2+N”体系里,“N”恰恰就是优先来啃这些硬骨头的。

 

更关键的是,这一次“N”做了很大的升级:它把落地过程中那些最常见、最难啃、最容易反复踩坑的环节抽象出来,沉淀成一组可插拔、可组合的模块化组件。Agent 开发的难题看起来五花八门,但很多难题其实有共通的解法,可以被提炼、被复用。

 

“N”组件的存在,可以让企业缺什么就用什么、按需组合,把时间花在业务价值上,而不是重复造轮子。

 

这次升级里,一个直观的变化在应用广场:阿里云百炼把同类 Agent 做成了十多个精选合集,提供新的多模态模板,支持免登录体验,也能一键调用 API,把“试试到跑起来”的路径压得更短。

 

真正决定“能不能落地”的挑战,还有数据连接与知识管理、安全与权限控制、可观测与持续优化等问题。

 

企业做 AI 转型,数据治理永远是“卡脖子”环节。尽管大家都知道数据重要,但真落到工程上,标注、清洗以及让模型读懂私有数据的成本极其高昂。

 

目前,企业内部约 80%的数据以 PDF、图像、视频或会议录音等非结构化形式存在。据 IDC 预测,这些数据多处于“不可检索、不可复用”的沉睡状态。随着全球数据量预计在 2026 年激增至 221ZB,如何将这些碎片资产转化为 Agent 可调用的知识,成为企业发展的关键。

 

阿里云百炼的思路是把这条链路做成“工具化”:用多模态 RAG、多模态数据库、Connector 连接器,把数据处理变成更工业化的流水线。

 

多模态数据库通过智能解析、分类归档,打破图像/音频/视频等模态壁垒;多模态知识库 RAG 不再局限于纯文本,支持数十种格式的高精度解析,包括扫描件 PDF、复杂报表、音视频会议记录等。

 

在 Workflow 层面添加多模态文件处理与生成节点,同时提供覆盖 Chunking、Embedding、(多模态)Embedding、Rewrite、Retrieval、ReRank 等在内的向量化全流程能力,用于检索与消化企业数据资产。

百炼平台还提供开箱即用的 RAG 工具,企业无需自建复杂的向量库与检索链路,也能获得高性能的知识检索与生成能力。

 

把知识库做起来只是第一步。要让 Agent 真正有用,它就得能接入实时数据。然而,长期以来 ERP、CRM 等异构系统间的集成成本高昂,导致 65%的企业受访者认为业务系统沦为新的“数据孤岛”。

 

百炼平台推出的 Connector(企业级数据连接器),就是想把这个门槛降到最低。

 

通过 Connector,企业可以一键对接飞书、语雀、MySQL 及 OSS 存储;连上之后,这些数据既能直接喂给知识库,也能驱动工作流跑起来;平台还提供数十种预置工具(Tools),支持用自然语言直接查询或检索数据等。

 

当然,数据一旦接进来了,真正棘手的问题也随之出现:权限边界与责任归属难题。

 

长期以来,很多 Agent 在企业业务中多以匿名形式存在。这种“身份透明”导致操作链路难以溯源,不仅无法明确执行指令的主体,更埋下了越权操作的隐患。

 

为此,百炼平台引入 Agent Identity 组件,将 Agent 纳入企业身份治理的范畴。

 

通过集成 Okta、EntraID 等主流系统,平台为每个 Agent 分配数字身份,使其行为从孤立的匿名调用转变为绑定主体、可供审计的合规操作。

 

百炼平台也将传统的“常驻权限”升级为“按需授权”仅在执行任务时获得短期令牌,任务结束权限即刻回收。

 

配合权限降级机制,Agent 的边界被严格限制在用户授权范围内,确保无法越权。全链路审计日志则让每一步决策都透明可查,解决了企业“敢不敢给权限”的顾虑。

 

针对执行环境安全,百炼平台也构建了 Sandbox(沙盒)物理隔离屏障。当 Agent 处理外部代码或第三方数据时,系统可以利用虚拟化技术将其限制在独立空间内,精简系统调用并严控网络访问。

 

每一个任务会话均在“即用即弃”的容器中运行,执行完毕立即重置,彻底阻断了数据残留与交叉污染。平台同步引入实时监控与会话回放,一旦监测到异常行为将立即终止任务。这种设计为 Agent 提供了“受控下的自由”:在屏障内保持灵活性,在边界外确保系统安全。

 

而当 Agent 真正跑进业务之后,新的共性难题也会浮现:怎么评估、怎么持续改进。

 

与传统软件不同,Agent 的执行具有非确定性:即便输入相同,也可能因模型的随机性、工具调用顺序或上下文波动产生不同的输出。这导致开发者难以追踪 Agent 决策逻辑,在任务失败时无法精准定位是模型、工具还是流程缺陷。

 

百炼平台通过 Trace(可观测)与 Evaluate(评估)组件,实现了从“黑盒”到“透明”的转变。

 

Trace 组件提供完整的执行轨迹追踪,清晰复现了从思考(Thought)、行动(Action)到观察(Observation)的每一步。开发者可以判断哪一步耗时最长、哪个工具失败率最高,或是在哪个环节陷入了逻辑死循环。

 

结合 Token 消耗、响应速度等量化指标,这些数据可通过 Grafana 进行可视化监控,构建起实时的生产环境观测能力。

 

基于此,Evaluate 则建立了体系化的评价标准。

 

在任务完成度评价方面,百炼平台可以通过衡量目标满足率与输出质量对 Agent 进行评分;并支持“模型评测(LLMasJudge)”、专家打分与人工复查相结合的混合模式,对失败任务进行深度归因。

 

可以说,基于日志(Logs)、指标(Metrics)与追踪(Traces)的三大支柱,百炼平台设计了一个“评估—优化—验证”的持续迭代闭环。这种由数据驱动的迭代机制,也驱动着 Agent 实现“越用越好用”的工程闭环。

 

相比于自建底层架构,直接调用百炼平台的成熟组件能让开发周期缩减数倍。以 RAG 系统为例,以往搭建搜索和解析链路需要数周,现在利用多模态 RAG 组件,几个小时就能跑通。

 

企业不需要为每个 Agent 单独开发身份认证或数据接口,一套 Agent Identity 就能管好所有 Agent 的工号,一个 Connector 就能接通全公司的数据源。

 

放在阿里云百炼“1+2+N”体系中,组件化正填补模型到业务之间的最后一块拼图:模型提供计算力,开发范式定好流程,而这“N”个组件则专门负责解决数据怎么连、权限怎么划、效果怎么评、安全怎么管这些具体的“杂活”。

二、“2”:“下一代”Agent,需要新开发范式

 

“N”组件把坑填平,只解决了“这事能不能接得上、管得住”。企业真正要把 Agent 变成长期能用的工业生产能力,还得解决另一个现实问题:怎么开发、怎么协作、怎么迭代。

 

阿里云百炼“1+2+N”体系里的“2”,就负责这一点,它涵盖两种开发方式(低代码+高代码),以及配套 Agent 开发平台,通过同一套平台和运行时,分别服务两类人、两种交付方式。

 

为什么要做成“2”种模式?因为企业落地 Agent 的过程,基本就是两条路同时走:想快速试点、尽快看到效果,低代码更省事、更快;真要进核心业务、对接复杂系统,高代码才够灵活、够深。

更现实的是,企业在代码协作上存在长期的“割裂”:低代码不够用,高代码效率低。产品经理用低代码搭建的草案,往往需要技术团队用高代码重新开发,而这种重复劳动会导致业务逻辑在传递中失真。

 

为了让 Agent 更快、更深地融入业务,百炼把低代码和高代码“打通”:企业可以从低代码起步做验证,再逐步演进到高代码做优化,形成一种更自然的渐进式开发,让真正懂业务的人与懂技术的人有机协作。

 

据 Gartner 的预测,到 2028 年,企业里相当一部分 Agent 应用会由业务人员主导搭建。双开发模式很可能会成为 Agent 走向工业化落地的一种主流形态。

 

但“2”的意义还不止是“怎么写代码”。更重要的是:下一代 Agent 本身就需要新的开发范式。

 

过去的一年,很多企业里的 Agent 实际上还停留在比较“表层”的形态:一种是以提示词工程为核心、更多承担辅助角色的 Copilot;另一种是能处理重复流程、严格按预设步骤执行的“数字员工”。它们能提升效率,但往往缺少主动规划与闭环执行能力。

 

Agent 不应仅“被告知怎么做”,而是“应该主动思考怎么做”。

 

因此阿里云百炼提出了 Agent2.0:未来的 Agent 要能围绕目标自主规划,把复杂问题拆成可执行的小任务,过程中还能根据反馈调整策略,最后交付更稳定、质量更高的结果。

 

按照这个定义,Agent2.0 的核心链路是“规划—执行—反思”。

 

而现实里很多 Agent 开发失败,问题往往是开发范式还停留在老路上。传统那种线性链路(用户 →Agent→ 模型 → 输出)有三个硬伤:没有规划,就很难应对动态场景;没有反馈与纠错,走偏就很难拉回来;没有长期记忆,交互体验容易断裂。

 

为了能承载 Agent2.0 的生产级落地,百炼平台对开发范式做了系统升级:AgentScope 从过去偏“开源写代码”的工具形态,演进为覆盖 Agent 全生命周期的工业化开发平台。

第一步,是把“上手门槛”压到尽量低。

 

一方面,AgentScope 做了对主流模型能力的统一集成,内置 100+预训练模型,拿来就能用。

 

另一方面,百炼平台提供了一批可复用的智能体库,比如交易智能体(EvoTraders)、调研智能体、金融分析智能体、数据科学智能体(Data-Juicer)、浏览器使用智能体、语音智能体等,减少从零开始的成本。

 

第二步,是围绕更高级的 Agent2.0,把“协作与执行”能力补齐。

 

AgentScope 主要通过三块来支撑:

 

多智能体编排:引入基于 Actor 模型的分布式架构,支持多个专业 Agent 的并行协作与自动调度。研究表明,协作模式任务成功率比单一 Agent 高出 90.2%。

 

智能体上下文管理(长期记忆):深度适配 Mem0、ReMe 等记忆系统。使得 Agent 能够自主存储并检索历史交互中的关键信息,在后续任务中实现能力的持续迭代。

 

工具调用能力:全面兼容 StreamableHTTP、SSE、STDIO 等主流接口标准。通过支持 AnthropicAgentSkill 规范,在运行时即可动态加载新工具或移除冗余资源。

 

在工具调用这层,ReAct 这类“边想边做”的范式,也被不少实践证明更容易形成任务闭环:学术基准测试中,ALFWorld 任务只需 2 个示例即可达到 71%的成功率,高于强化学习模型的 37%;在复杂任务中,准确率相较纯 FunctionCalling 提升约 15%–20%,成本比 CodeAct 低 78.9%。

 

在 Agent2.0 优化与部署阶段,阿里云百炼通过 AgentScope-Studio+AgentScope-Runtime 打通了全生命周期的工业化链路。

 

AgentScope-Studio 可通过自定义多维表现指标,评估工作流设计的合理性;提供从输入到输出的全链路追踪与可视化,让 Agent 行为与决策过程实现“可观测、可复盘”。

 

百炼平台利用评测结果持续改进,让失败样本成为训练资产,形成“评测→优化→验证→再优化”的迭代闭环,实现从“盲目调参”到“数据驱动优化”的范式转换。

 

在落地部署环节,AgentScope-Runtime 支持 Docker、K8S、ACK、Serverless 等多种部署形态;通过 Agent-as-a-Service 将 Agent 封装为可独立调用的 API 服务,兼容 A2A 与 ResponseAPI 等协议,便于集成、弹性扩缩与快速迭代。

 

如果把阿里云百炼的开发范式拆开来看,其实就是从“构建”走向“运营”的一个完整闭环。

 

前半段构建,重点是更快、更省力地把东西搭起来:

 

用可选智能体模板减少重复劳动;用多智能体编排与工作流把复杂任务拆成可协作的子任务;用高低代码一体化实现统一开发与交付;通过 ReAct 等方式完成多任务的规划、执行与自我纠偏,再结合用上下文和长期记忆支撑长链路执行等。

 

后半段上线运营,就是做让它智能地跑起来:

 

用可观测和自动化评测把效果变成可量化的指标;打通真实系统和数据源,拿到反馈并持续优化;在企业既有基础设施上实现更便捷的部署与稳定运维;同时借助 Identity、模型单元专属部署、机密推理等能力,把权限、安全与合规治理补齐。

 

这套开发范式的最大亮点,就是它统一按照“工业级 Agent2.0”的标准做事:高效的开发体系+可持续的反馈闭环+便捷可靠的上线部署。

 

三、“1”:模型优势之外,深挖“模型服务”工程

 

最后,无论是组件化拼装,还是低/高代码协作,最终都要落在同一个问题上:模型调用能不能稳定、能不能扛流量、能不能控成本、能不能过合规。

 

所以“1”是整个体系的地基——模型与云服务底座把推理服务、弹性、部署形态与安全边界做成统一供给,保证上层“能跑起来,也跑得久”。

 

很多企业在用 Agent 的过程中,卡住的往往不是“模型会不会”,而是一些更现实、更工程的问题:1)延迟、并发、稳定性跟不上真实业务流量;2)成本容易失控(链路长、多轮工具调用、重试一多就更明显);3)部署和合规麻烦(私有化、混合云、权限边界、数据隔离等)。

 

在调用模型的时候,企业最关心的也无非就两件事:成本与性能。为此,百炼平台提供了一套云资源调度组合拳:“异步调用+闲时调度”。

 

以前搞大规模的数据清洗、标注,或者是分析长视频,这些任务不仅计算密集,而且耗时漫长。最头疼的就是走“同步调用”,跑到一半接口超时了,任务断掉,前面全白干。

 

有了异步调用就省事多了,它像寄快递一样,你把任务丢给后台,拿个任务 ID,就可以去干别的。不用在那儿死等结果,等服务器处理完了你再回来取就可以。

 

而“闲时调度”更像“错峰用电”:不着急的任务挪到资源空闲的时候跑,单价更划算,整体资源利用率也更高。阿里云百炼官方给出的数据是,动态调度后闲时推理成本可降低 50%。对需要处理海量数据的企业来说,这种节省是实打实的。

 

此外,阿里云百炼这次把“模型服务能力”也做了系统升级,主要围绕四块:模型后训练、专属模型单元部署、平台可观测、推理安全防护,系统性地”深挖“模型的服务能力。

 

先从选型说起。百炼平台把模型体验中心做了结构性重构,把在线模型的能力做成更直观的“能力图谱”,支持文本、视觉理解、图像/视频生成、语音交互等全模态体验。

 

这样企业就不用靠猜,也不用“盲选”,可以在平台上直接对比不同模型在具体场景下的表现,再做选择。

 

模型选定之后,是否“实用”往往取决于后训练。很多企业真正需要的不是通用能力,而是用自家数据和业务知识微调出来的“专家模型”,这才更贴近业务,也是企业的核心壁垒。

 

模型训完后,真正容易被“拦住”的常常是部署。自建集群运维复杂、成本也难估:为了应付峰值不得不预留一堆算力,平时又闲着浪费;多租户环境下的数据隔离和性能争抢,会让企业心里不踏实。

 

阿里云百炼推出“模型单元”部署,其实相当于给企业开了条“专属通道”,减少资源争抢带来的不确定性,让高并发和低延迟更稳定。

 

同时提供全托管的 Serverless 方式:系统会跟着实时流量自动扩缩容——忙的时候自动扩,保证体验;闲的时候自动收,尽量省成本。

 

官方给出的测试数据里,模型单元部署相对传统自建集群方案,推理性能提升超过 1.3 倍,并发能力提升超过 1.5 倍。对企业来说,这类提升的意义很直接:同样的业务量,成本更低性能更好。

 

此外,调用模型处理数据时,最难绕开的是安全——尤其在金融、医疗、法律等高敏行业。很多企业不是不想用,而是卡在一句话:数据给到模型,会不会出事?

 

为此,百炼平台推出模型“机密推理服务”,依托三层安全架构,为企业构建起全链路的数据保护围墙:

 

第一层是基于 CPU/GPU 硬件可信执行环境的机密计算能力,将模型推理运行在硬件隔离的安全区内。即便云侧其他组件遭受攻击,敏感数据也难以被窃取或泄露。

 

第二层是端到端加密的可信链路:实现了从用户端到云端计算中心的全程加密传输。数据在加密状态下进入 TEE 区域处理,计算结果在加密状态下返回,确保数据在“流动”与“处理”的全生命周期中始终处于保护伞下。

 

第三层是公开审计的可信服务:平台提供可验证的身份与安全能力证明。企业不仅能自主校验服务安全性,更能以此作为合规背书,向管理层、审计机构及客户证明其 AI 系统的高安全性。”

 

在使用体验上,机密推理被做成了“一键交付”的形态:企业只需要在模型库中选择支持机密推理的版本,一键部署到 TEE 隔离环境,就能直接调用机密推理服务来处理敏感数据。

 

放在一起看,这次升级是在原有模型性能优势之上,又补上了几块关键拼图:云资源调度、后训练、模型单元化部署、机密推理安全体系等。几块一起发力,让大模型调用变得更实用、更省钱,也更安全。

四、没人愿意再“从零开始”,阿里云百炼 Agent 平台企业版已发布

 

从市场角度来看,政企、金融、医疗等行业在采购云服务时,始终受困于一种不完美的平衡。

 

公有云上手快、性能强,但数据边界与合规要求是跨不过的门槛;私有化部署虽有安全感,但往往陷入“模型、工具、流程”极其复杂的运维战泥潭,开发周期长、技术更新慢。

 

1 月 7 日,阿里云百炼企业版的发布,为市场提供了一个既保留数据主权,又拥有云端顶级效率的方案。

 

企业版支持专有云、本地化及 VPC 隔离,百炼平台将云端的成熟能力“下沉”至企业环境。更重要的是,百炼平台企业版支持源码级交付。这不仅仅是技术开放,更是给予企业自主演进的确定性。

 

企业不再需要买一堆零件回去组装,而是直接获得一个在自身安全边界内运行的 Agent 基座。

 

事实上,企业版也并非新功能的简单集合,而是将百炼平台“1+2+N”体系(顶级模型、成熟范式、核心组件)封装为完整的交付体:

 

双代码统一:兼顾业务验证的敏捷性与复杂逻辑的深度定制。

 

多模态 RAG:激活企业沉睡的音视频与文档资产,转化为实时知识。

 

Trace 与 Evaluate:将 Agent 的黑盒行为拉到台面上,让调试与迭代成为标准工序。

 

大规模组织的管理诉求:企业版强化了多租户部署、SSO 账号集成以及细粒度的权限审计。这些功能解决了 IT 部门的核心忧虑——让 Agent 的应用在组织内部不仅“能跑通”,更“可治理”。

 

一个行业走向成熟的标志,是目光从技术指标移向业务价值的“深水区”。

 

阿里云百炼 Agent 平台企业版,本质上在扮演“AI 时代技术中台”的角色。从行业趋势上看,未来企业大概率将不会从零开始建设 AI 能力,而是直接基于一个完整、成熟的技术中台起步。

 

这意味着,在一年的野蛮生长后,留给企业 AI 试错的窗口期正在关闭。

 

展望 2026 年,Agent 应用爆发增长几乎已成共识。Gartner 预测,到 2026 年底,40%的企业应用将集成任务型 AI agents(相比 2025 年不足 5%),这也标志着 Agentic AI 正从概念走向主流生产环境。

 

对阿里云这样的全栈人工智能服务商而言,这将是多年技术积累转化为业务增量的红利期;对使用模型与 Agent 的企业客户而言,也将是 Agent 正式进入“拼效率、拼落地”的竞争元年。