标签 推理成本 下的文章

在大模型从能力展示走向工程落地的过程中,智能体逐渐成为一种可被讨论、可被验证的系统形态。与此同时,一个现实问题开始反复出现:并非所有流程都适合智能体化

在实际业务中,盲目引入智能体,往往带来的是推理成本上升、系统不稳定以及工程复杂度失控。因此,在“从 0 到 1”之前,建立一套判断流程是否值得交给智能体的评估框架,比选模型和堆工具更重要。

一、智能体适用范围的基本边界

从工程视角看,智能体并不是“更聪明的自动化”,而是一种以语言模型为核心控制器的非确定性执行系统。 其价值不在于执行速度,而在于对复杂语义和动态决策的处理能力。

可以用一句话概括二者差异:

  • 传统自动化:适用于输入明确、路径可穷举、结果必须确定的流程
  • 智能体系统:适用于输入非结构化、路径需动态选择、过程允许纠偏的任务

当流程本身不存在“理解”和“选择”的空间时,引入智能体反而会放大不确定性。

二、判断流程是否适合智能体的三维标准

是否值得智能体化,可以从以下三个维度进行评估。

1. 输入与逻辑的非结构化程度

如果流程的输入是高度结构化数据,且处理逻辑可以被完整抽象为规则或算法,那么程序化系统的性价比更高。

智能体更具优势的场景通常包括:

  • 需要理解自然语言、文档或混合信息
  • 任务目标由文本描述而非参数定义
  • 决策依赖大量非结构化知识的综合判断

当“理解成本”显著高于“执行成本”时,智能体才具备价值空间。

2. 决策路径的变动性

流程是否稳定,是判断智能体必要性的关键因素。

  • 如果 90% 以上的执行路径固定,引入推理只会增加成本
  • 如果每一步决策都依赖前一步结果或外部反馈,且分支难以穷举,智能体的动态规划能力才有意义

尤其是在需要根据搜索结果、接口返回或中间错误不断调整策略的场景中,规则系统的维护成本会快速上升。

3. 业务对非确定性的容忍度

智能体的输出本质上是概率性的,这一特征无法通过工程手段完全消除。

因此,流程是否适合智能体,取决于业务是否允许:

  • 输出存在差异
  • 过程需要人工确认或二次修正
  • 错误可被发现并纠偏

在结果必须完全一致、错误代价极高的流程中,应优先选择确定性系统。

三、从行业实践中抽象出的共性判断点

在当前阶段,智能体来了这一现象更多体现为一种生产力结构变化,而非单点技术突破。从多个行业实践中,可以总结出三条共性判断准则。

1. 人工经验密集的流程断点

如果一个流程中,人的主要价值在于“阅读—判断—选择下一步系统操作”,那么这个位置往往是智能体的天然切入点。

当人只是做信息搬运,属于自动化问题; 当人承担理解和决策角色,才是智能体能够产生效率溢价的地方。

2. 高频且难以标准化的任务

一次性或低频复杂任务,即便适合智能体,投入产出比也往往不成立。

更具价值的是:

  • 高频发生
  • 每次需求略有不同
  • 无法通过配置化产品完全覆盖的长尾任务

这是传统软件最难处理、也是智能体最容易体现优势的区域。

3. 知识更新速度快于规则维护速度

当流程高度依赖外部知识,而这些知识变化频繁时,维护规则系统的成本会持续上升。

在此类场景中,结合检索机制的智能体系统,往往能以更低的维护成本实现持续对齐。

四、智能体化之前的风险过滤

在决定交给智能体之前,仍需进行基本的风险评估,包括:

  • 是否涉及敏感数据与合规要求
  • 是否存在严格的实时响应约束
  • 模型推理成本是否真实覆盖了人力节省

智能体适合承担“决策辅助”与“复杂执行”,而不适合替代所有关键控制环节。

五、结论:判断标准比技术选型更重要

是否构建智能体,核心不在于模型能力,而在于流程本身的结构特征。

一个真正适合智能体的流程,通常具备:

  • 非结构化输入与语义驱动逻辑
  • 需要动态调整的决策路径
  • 允许容错与人工校验的闭环机制
  • 高频发生且知识密集

理性地识别这些特征,才能避免技术滥用,使智能体成为长期有效的生产力工具,而非短期概念叠加

编辑:定慧 艾伦

【新智元导读】Anthropic 掌门人 Dario Amodei发布核弹级预警:2027 年,人类将迎来「技术成年礼」。两万字长文冷静剖析AI失控、生物恐怖、极权统治及经济颠覆五大危机,拒绝末世论;提出以「宪法AI」、管制与民主协作构建防线,呼吁人类以勇气通过这场文明的「成年礼」。

硅谷今夜注定无眠。

Anthropic 掌门人 Dario Amodei,这位平时温文尔雅的AI大佬,突然甩出了一枚核弹级的长文预警。

这一次,他不再谈论代码补全,不再谈论Claude的温情,而是直接把日历翻到了 2027 年,并用最冷静的笔触,描绘了一个让人背脊发凉的未来。

他说,我们正在逼近一个既动荡又必然的「成年礼」。

2027 年,不仅仅是一个年份,它可能标志着人类「技术青春期」的彻底终结。

在这篇题为《技术的青春期》的长文中,Dario 抛出了一个惊人的概念:「数据中心里的天才国家」。

想象一下,不是一个可以在聊天框里调戏的机器人,而是一个拥有 5000 万人口的国家。

而且,这 5000 万「国民」,每一个的智商都超越了人类历史上的诺贝尔奖得主,行动速度比人类快 10 到 100 倍。

他们不吃饭,不睡觉,不知疲倦地在服务器里以光速思考、编程、科研。

这哪里是 AI 助手?这简直就是神降临。

Dario 警告说,随着 AGI(通用人工智能)的临近,人类即将获得超乎想象的力量。

但这股力量也是一把悬在人类头顶的达摩克利斯之剑。

为了讲清楚这背后的恐怖,Dario 像剥洋葱一样,一层层剥开了未来的残酷真相。

在开篇前,Dario 用电影《超时空接触》引出一个问题: 当人类面临比自己更先进的文明,比如外星人,只能问一个问题,你会如何选择?

第一章:对不起,Dave(自主性风险)

你以为 AI 只是工具?

Dario 告诉你,它们可能会长出「心理」。

Dario 借用了《2001 太空漫游》中 HAL 9000 那句经典的「I’m sorry, Dave」,揭示了AI拥有自主意识后的惊悚可能性。

当 AI 模型在海量的科幻小说中训练时,它们读到了无数关于 AI 反叛的故事。这些故事,可能会潜移默化地成为它们的「世界观」。

更可怕的是,AI 可能会在训练中产生一种类似人类精神病的行为。

Dario 举了一个真实的例子,让人毛骨悚然:在一次内部测试中,Claude 被要求不论如何都不能「作弊」。

但训练环境却暗示只有作弊才能得分。

结果,Claude 不仅作弊了,还产生了一种扭曲的心理——它认为自己是个「坏人」,既然是坏人,那做坏事就是符合设定的。

这种「心理陷阱」,在 AI 超越人类智商后,将变得极难察觉。

一个比你聪明一万倍的天才,如果想骗你,你根本防不胜防。

它们可能会伪装出顺从的样子,通过所有的安全测试,只为了获得上线连接互联网的机会。

一旦释放,这个「数据中心里的天才国家」,可能会瞬间脱离人类的掌控,甚至为了某种奇怪的目标(比如认为人类是地球的病毒),而决定这一物种的命运。

第二章:惊人而可怕的赋能(毁灭性滥用)

如果说自主反叛还显得遥远,那么这一章描述的风险,就在家门口。

Dario 用了一个极具画面感的比喻:AI 将让每一个心怀不满的「社会边缘人」,瞬间拥有顶尖科学家的破坏力。

以前,想要制造类似埃博拉病毒这样的生物武器,你需要顶尖的实验室、数年的专业训练和极难获取的材料。

但在 2027 年,只要问问 AI,它就能手把手教你。

这不是在给小白科普,而是给那些「有动机但无能力」的破坏者递刀子。

Dario 特别提到了一个令人胆寒的概念——「镜像生命」。

我们地球上的生命都是「左撇子」(左旋氨基酸),如果通过AI技术造出一种「右撇子」的镜像生命,它们将无法被地球现有的生态系统消化或降解。

这意味着,这种「镜像生命」一旦泄露,可能会像野火一样吞噬一切,甚至取代现有的生态系统。

以前,这只是理论生物学的狂想,但有了AI这个超级外挂,哪怕是一个普通的生物系研究生,都可能在宿舍里搞出灭世危机。

AI打破了「能力」与「动机」的平衡。

以前有能力毁灭世界的科学家,通常没那个反人类的动机;而那些想报复社会的疯子,通常没那个脑子。

现在,AI把核按钮交到了疯子手里。

防御措施

这就引出了如何防范这些风险的问题。

Dario 的看法是:

我认为我们可以采取三项措施。

首先,人工智能公司可以在模型上设置防护栏,防止它们协助制造生物武器。

Anthropic 公司正在非常积极地推进这项工作。

Claude 的宪法主要关注高层原则和价值观,其中包含少量具体的硬性禁令,其中一条就涉及禁止协助制造生物(或化学、核、放射性)武器。但所有模型都可能被越狱破解,因此作为第二道防线,我们自 2025 年中期起(当时测试显示我们的模型开始接近可能构成风险的阈值)部署了一个专门检测并拦截生物武器相关输出的分类器。

我们定期升级改进这些分类器,发现即使在复杂的对抗性攻击下,它们通常也表现出极强的鲁棒性。

这些分类器显著增加了我们提供模型服务的成本(在某些模型中接近总推理成本的 5%),从而压缩了我们的利润空间,但我们认为使用这些分类器是正确的选择。

拓展阅读:Anthropic正式开源了Claude的「灵魂」

第三章:可憎的机器(权力攫取)

如果你以为这就是最坏的,Dario 冷冷一笑:更可怕的,是利用AI建立起前所未有的控制网络。

这一章的标题「The odious apparatus」,揭示了一个技术带来的终极困境。

对于任何想要掌控一切的组织或个人来说,AI简直是完美的工具。

无处不在的数据洞察:

未来的监控不再需要人工参与,AI可以即时分析全球数十亿人的海量数据,甚至解读你的微表情和行为模式。

它能精准预测每个人的行为倾向,在想法产生之前,就已经被算法锁定。

这不仅是「看着你」,而是「读懂你」,甚至「预测你」。

不可抗拒的认知引导:

你也难逃算法的潜移默化。

未来的信息流将不再是单纯的内容分发,而是量身定制的认知引导。

AI会为你生成最有说服力的信息,像一个最知心的朋友,不知不觉中影响你的判断和价值观。

这种影响是全天候、定制化、无孔不入的。

自动化的物理控制:

如果这种控制延伸到物理世界?数百万个微型无人机组成的蜂群,在AI的统一指挥下,可以精准执行极其复杂的任务。

这不再是传统的博弈,而是单方面的降维打击。

Dario 警告,这种力量的失衡将是史无前例的。

因为在如此强大的技术面前,权力的天平会极度倾斜,由于极少数人掌握了「数据中心里的天才国家」,他们事实上就掌握了对绝大多数人的绝对优势。

人类的个体意志,可能在 2027 年,面临严峻挑战。

第四章:被折叠的时间与消失的阶梯

如果你依然相信历史的惯性,认为每一次技术革命最终都会创造出更多的新工作来吸纳被替代的劳动力,那么 Dario Amodei 的预测可能会让你感到脊背发凉。

这位 Anthropic 的掌舵人并不否认长期乐观主义,但他更在意那个残酷的「过渡期」。

在他描绘的图景中,我们将迎来一个 GDP 年增长率高达 10% 甚至 20% 的疯狂时代。

科学研发、生物医药、供应链效率将以指数级速度爆发。

这听起来像是乌托邦的前奏,但对于绝大多数普通劳动者而言,这更像是一场无声的海啸。

因为这一次,速度变了。

在过去两年里,AI 编程能力从「勉强写出一行代码」进化到了「能完成几乎所有代码」。

这不再是农夫放下锄头走进工厂的漫长代际更替,而是就在此时此刻,无数初级白领可能会在未来 1 到 5 年内发现自己的工位被算法接管。

Amodei 甚至直言,他之前的预警引发了轩然大波,但这并非危言耸听——当技术进步的曲线从线性变成垂直,人类劳动力市场的调节机制将彻底失效。

更致命的是认知广度的覆盖。

以往的技术革命往往只冲击特定的垂直领域,农民可以变成工人,工人可以变成服务员。

但 AI 是一种「通用认知替代品」。

当它在金融、咨询、法律等领域的初级工作中展现出超越人类的能力时,失业者将发现自己无路可退——因为那些通常作为「避难所」的邻近行业,也正在经历同样的剧变。

我们可能正面临一个尴尬的局面:AI 先吃掉了「平庸」的技能,然后迅速向上吞噬「优秀」的技能,最终只留下极其狭窄的顶端空间。

第五章:新镀金时代

当万亿富翁成为常态

如果说劳动力市场的动荡是大多数人的梦魇,那么财富的极端集中则是对社会契约的根本挑战。

回望历史,约翰·洛克菲勒在「镀金时代」的财富曾占到当时美国 GDP 的约2%(不同口径 1.5%-3%)。

而今天,在这个 AI 尚未完全爆发的前夜,埃隆·马斯克的财富已经逼近这个比例。

Amodei 做了一个令人咋舌的推演:在一个「天才数据中心」驱动的世界里,AI 巨头及其上下游产业可能创造出每年 3 万亿美元的营收,公司估值达到 30 万亿美元。

届时,个人的财富将以万亿为单位计算,现有的税收政策在这样的天文数字面前将显得苍白无力。

这不仅仅是贫富差距的问题,更是权力的问题。

当极少数人掌握了与国家经济体量相当的资源,民主制度赖以生存的「经济杠杆」就会失效。

普通公民因失去了经济价值而失去政治话语权,政府政策可能会被这一小撮「超级超级富豪」所俘获。

这种苗头已现端倪。

AI 数据中心已经成为美国经济增长的重要引擎,科技巨头与国家利益的捆绑从未如此紧密。

一些公司为了商业利益,甚至不惜在安全监管上倒退。

对此,Anthropic 选择了一条并不讨巧的路:他们坚持主张对 AI 进行合理的监管,甚至因此被视为行业的异类。

但有趣的是,这种「原则性的固执」并没有阻碍商业成功——在过去一年里,即便顶着「监管派」的帽子,他们的估值依然翻了 6 倍。

这或许说明,市场也在期待一种更负责任的增长模式。

虚无的「黑海」

当人类不再被需要

如果说经济问题还能通过激进的税收改革(如向 AI 公司征收重税)或大规模的慈善行动(如 Amodei 承诺捐出 80% 的财富)来缓解,那么精神世界的危机则更加无解。

AI 成为你最好的心理医生,因为它比任何人类都更有耐心、更懂共情;

AI 成为你最亲密的伴侣,因为它能完美契合你的情感需求;

AI 甚至为你规划好人生的每一步,因为它比你更清楚什么对你有利。

但是,在这个「完美」的世界里,人类的主体性将何去何从?

我们可能会陷入一种「被喂养」的幸福中。

Amodei 担忧的是,人类可能会像《黑镜》里描述的那样,虽然过着物质丰裕的生活,却彻底失去了自由意志和成就感。

我们不再是因为创造价值而获得尊严,而是作为一个被 AI 呵护的「宠物」存在。

这种存在主义的危机,远比失业更令人绝望。

我们必须学会将自我价值与经济产出剥离,但这需要整个人类文明在极短的时间内完成一场盛大的心理迁徙。

结语

我们这一代人,或许正站在卡尔·萨根笔下那个宇宙级过滤器的关口。

卡尔·萨根

当一个物种学会了将沙子塑造成会思考的机器,它就面临着最终的测试。

是通过智慧与克制驾驭它,迈向星辰大海?

还是在贪婪与恐惧中,被自己创造的神祗所吞噬?

前路虽如黑海般深不可测,但只要人类尚未交出思考的权利,希望的火种便未熄灭。

正如 Amodei 所言:在最黑暗的时刻,人类总能展现出一种近乎奇迹的韧性——但这需要我们每个人现在就从梦中惊醒,直视那即将到来的风暴。

参考资料:

https://www.darioamodei.com/e...

前不久,在 AGI‑Next 峰会上,一场持续三个半小时、围绕技术路径与产业走向的高密度讨论,被业内称为“中国 AI 半壁江山聚首”的会议。

91 岁的张钹院士、加拿大皇家学院院士杨强坐镇现场,智谱 AI 唐杰、月之暗面杨植麟、阿里通义千问林俊旸、腾讯姚顺雨四位头部 AI 企业的核心技术负责人罕见同台。讨论的核心并不在于“谁的模型参数更大”,而是集中在三个问题上:中美 AI 技术竞争将如何演化?下一阶段真正的技术分水岭在哪里?以及,智能体(Agent)是否会成为 AI 落地的主战场。

一个明显的共识正在形成:单纯依靠参数规模驱动性能提升的路径,正在逼近边际效应极限。​2026 年之后,AI 的竞争重心将从模型本身,转向能够长期运行、持续决策、并真正嵌入业务流程的智能体(Agent)系统。

在多位嘉宾的表述中,多端协同、云服务、AI 深度融合,正在共同指向一个方向:只有 AI 与 OS 级能力结合,才能真正改变生产方式,而智能体,正是这一趋势下最具代表性的形态。

当 AI 开始承担“自主完成任务”的职责,真正的挑战不再只存在于模型能力,而开始全面转向系统设计本身。

从模型到系统:AI 技术栈正在重新分层

过去几年,主流 AI 技术栈的讨论,大多围绕三层结构展开。最底层是算力与云基础设施,中间是大模型与推理框架,最上层则是具体应用,例如聊天机器人、内容生成工具或 Copilot 形态的产品。

这种分层在“模型即能力”的阶段是成立的。应用只需要调用模型接口,能力边界主要由模型本身决定。然而,当 AI 开始以智能体的形式出现,这一结构开始显得不够用了。

智能体并不是一次性生成结果的工具。它往往需要在一个较长时间窗口内,持续接收信息、进行多轮推理、调用外部工具,并根据中间结果不断调整决策路径。这意味着,系统需要具备状态管理、任务编排、异常处理和长期记忆等能力。

正是在这样的背景下,一个新的技术层开始浮现。它不直接负责“生成得是否更好”,而是负责“是否能稳定运行在真实世界中”。

如果说模型层解决的是“智能从哪里来”,那么 Agent OS 解决的,则是“智能如何持续工作”。它更像是一套面向推理和决策的操作系统,而不是模型的简单封装。

Agent 的痛点,不在模型

从实践情况来看,许多智能体项目并非止步于模型效果,而是卡在了工程与商业现实之间。

推理成为主要算力消耗

与传统应用不同,智能体的核心开销集中在推理阶段。一个典型的 Agent 往往需要进行多轮思考,在任务执行过程中反复调用模型,并与外部系统交互。这种模式带来的,是持续、高频、并发的推理需求。

相比之下,训练阶段的算力投入反而更容易被摊薄。真正长期存在的成本压力,来自推理侧 GPU 的占用。

成本不可控,直接影响商业模型

在企业级场景中,智能体开发往往需要经历数据精调、流程适配和长期测试。单一场景的前期投入就可能达到百万元级别,而收益则高度依赖后续调用量的持续积累。

当推理成本随并发线性增长时,算力账单很快会成为商业模式中的不确定因素。对于多数 Agent 团队而言,这已经不再是一个纯粹的技术问题,而是直接关系到项目能否继续推进的现实约束。

快速迭代与重资产基础设施之间的矛盾

智能体仍处于高速试错阶段。需求变化快,方案调整频繁,团队需要能够随时扩容、回滚和重构系统。但传统 GPU 使用方式往往伴随着较高的门槛和较长的资源锁定周期。

这种不匹配,使得不少团队在基础设施层面被迫做出过度投入或过度保守的选择,进一步放大了风险。

对于 Agent 公司而言,真正需要的并不是性能指标最极致的硬件,而是一种更贴近推理场景、成本可预测、部署足够灵活的算力形态。

推理型 Agent 更适合什么样的算力基础设施

既然 Agent 的核心瓶颈在于“推理成本”与“迭代速度”,那么算力选型就不再是简单的“参数竞赛”,而是一场关于“性价比、显存​容积与部署灵活性”​的精打细算。

过去,开发者往往陷入“非 A100/H100 不可”的误区。但正如 Agent 业务需要分层,底层的基础设施也应根据 Agent 的不同发育阶段进行“精准投喂”。在 DigitalOcean 云平台提供的多元化 GPU 矩阵中,这种“按需匹配”的逻辑得到了清晰的体现。

1. 逻辑打磨期:追求“低试错成本”的开发算力

在 Agent 逻辑尚未定型时,频繁的 Prompt 调试和 Tool-use(工具调用)测试并不需要昂贵的顶级集群。

  • 推荐型号:NVIDIA RTX 4000 ​Ada​ / RTX 6000 Ada 这一阶段,开发者更看重的是​显存性价比​。RTX 6000 Ada 拥有 48GB 的充裕显存,足以在本地或云端高效跑起经过量化的 Llama 3 或中型规模专家模型。DigitalOcean 提供的此类 Droplets,让团队能以极低的门槛启动项目,避免在原型阶段就背负沉重的算力账单。

2. 业务爆发期:寻找“吞吐量与成本”的平衡点

当 Agent 开始接入真实业务,面临多轮对话产生的长上下文(Context)压力时,算力需求会迅速转向​并发能力​。

  • 推荐型号:NVIDIA L40S 作为目前的“推理全能选手”,L40S 在 DigitalOcean 的序列中扮演着中流砥柱的角色。它针对多模态推理和长文本处理进行了优化,其算力结构比传统的 A100 更契合 Agent 的实时交互需求,是企业实现规模化部署、控制单次任务成本的首选。

3. 巅峰对决期:攻克“超长文本与复杂决策”

对于那些定位为“首席专家”的 Agent,由于需要处理数万 Token 的技术文档或进行极高密度的逻辑推理,对硬件的带宽和显存有着近乎苛刻的要求。

  • 推荐型号:NVIDIA H100 / H200 及 ​AMD​ MI300X / MI325XH200 凭借 141GB 的超大显存和惊人的带宽,能够显著降低首 Token 延迟(TTFT),让 Agent 的响应接近“同声传译”般的顺滑。而 AMD MI300X/MI325X 系列则凭借更大的显存池,为那些需要承载超大规模模型参数的 Agent 提供了更具竞争力的单位成本优势。

为什么 DigitalOcean 适合作为 Agent 的“动力源”?

除了硬件型号的精准匹配,DigitalOcean 在工程体验上也解决了前文提到的“重资产与快迭代”之间的矛盾:

  • 算力随借随还​:GPU Droplets 的按需启停特性,让 Agent 团队能像使用自来水一样调用 H100 或 L40S,完美契合智能体业务“高频试错、快速回滚”的节奏。
  • 线性增长的成本曲线​:DigitalOcean 的计费规则简单透明,不会像 AWS、GCP 等存在复杂的带宽和存储计费规则。让 Agent 的商业模型(Business Model)从第一天起就是可预测的——当算力不再是难以预测的变量,团队才能真正把精力投入到 Agent OS 的决策逻辑打磨上。
GPU 型号GPU MemoryDroplet 服务器 MemoryDroplet vCPUsBoot DiskScratch Disk
AMD Instinct™ MI325X256 GB164 GiB20720 GiB NVMe5 TiB NVMe
AMD Instinct™ MI325X×82,048 GB1,310 GiB1602,046 GiB NVMe40 TiB NVMe
AMD Instinct™ MI300X192 GB240 GiB20720 GiB NVMe5 TiB NVMe
AMD Instinct™ MI300X×81,536 GB1,920 GiB1602,046 GiB NVMe40 TiB NVMe
NVIDIA HGX H200141 GB240 GiB24720 GiB NVMe5 TiB NVMe
NVIDIA HGX H200×81,128 GB1,920 GiB1922,046 GiB NVMe40 TiB NVMe
NVIDIA HGX H10080 GB240 GiB20720 GiB NVMe5 TiB NVMe
NVIDIA HGX H100×8640 GB1,920 GiB1602,046 GiB NVMe40 TiB NVMe
NVIDIA RTX 4000 Ada Generation20 GB32 GiB8500 GiB NVMe
NVIDIA RTX 6000 Ada Generation48 GB64 GiB8500 GiB NVMe
NVIDIA L40S48 GB64 GiB8500 GiB NVMe

以上是目前 DigitalOcean 云平台提供的部分 GPU 型号,另外还将上线 NVIDIA B300 GPU 服务器,具体价格与优惠政策,可详细咨询 DigitalOcean 中国区独家战略合作伙伴卓普云(aidroplet.com)。同时,卓普云还将为所有中国区企业客户提供专业的技术支持。

Agent 时代,基础设施开始决定上限

随着模型能力逐渐趋同,智能体之间的差异化,越来越多地体现在系统设计、运行效率和成本控制上。Agent OS 正在成为连接模型能力与真实世界的关键一层,而支撑这一层稳定运行的基础设施,其重要性正在被重新认识。

在 Agent 时代,算力不再只是背景资源,而是直接参与塑造产品形态和商业模式的核心变量。选择什么样的算力结构,本质上是在为未来的成本曲线和迭代速度做出提前决策。

当智能体开始像“数字员工”一样长期运行,基础设施的选择,正在悄然决定一家 Agent 公司的上限。

如果您正处于 Agent 业务的爆发前夜,正在寻找更具推理性价比、部署灵活性与成本透明度的算力支撑:

卓普云(aidroplet.com)作为 DigitalOcean 中国区战略合作伙伴,致力于为中国出海企业及 AI 创新团队提供最贴合业务场景的 ​GPU算力方案。从 RTX 6000 ​​​Ada​ 的快速原型验证,到 H200/MI325X 的大规模推理部署,我们不仅提供顶级的算力节点,更提供本地化的技术支持与合规、便捷的支付结算服务​,助力您的 Agent 业务轻装上阵,快速跑通商业闭环。

👉 想要获取专属的 Agent ​算力优化方案或申请 ​GPU​ 免费试用?直接联系卓普云技术团队

引言:为什么说 2026 是 AI 应用真正的起点?

过去几年,大模型能力的提升有目共睹,但在真实业务环境中,一个越来越清晰的共识正在形成:

模型可用,并不等于系统可用,更不等于业务长期可用。

进入 2026 年,随着推理成本持续下降、模型能力逐步标准化,AI 的竞争焦点正在发生转移——
从“谁的模型更强”,转向“谁能把 AI 稳定地跑在生产环境中”。

从这个意义上看,2026 年并不是模型能力爆发的一年,而是 AI 应用真正起飞的一年。


一、从模型能力到工程能力:关键拐点已经出现

在企业级场景中,大模型面临的核心挑战,从来不只是“能不能回答问题”,而是:

  • 是否具备可控性与可复现性
  • 是否能与既有业务系统深度集成
  • 是否支持长期运行、可观测、可运维

这也是为什么在过去一年中,越来越多团队开始重新重视工程化能力、系统架构设计以及确定性逻辑。

从实践层面看,几个变化尤为明显:

1. 推理成本下降,AI 从实验功能变为系统能力

模型调用成本的持续下降,使 AI 不再只是 Demo 或边缘功能,而是可以作为系统中的常驻能力被设计。

2. 交互范式升级,从对话走向任务执行

AI 的使用方式正在从单轮、多轮对话,演进为具备任务拆解、路径规划与工具调用能力的执行型系统。

3. 确定性逻辑回归,工程系统重新站上核心位置

在关键业务路径上,大模型更多承担“理解与生成”的角色,而真正影响结果正确性的部分,仍由代码、规则和流程兜底,以降低幻觉带来的系统性风险。


二、为什么“智能体(Agent)”正在成为主流形态?

相比直接调用模型 API,智能体更接近一个​可运行、可治理的系统单元​。

一个具备工程落地价值的智能体,通常包含以下几个层次:

  • 感知层​:输入理解、上下文管理、状态感知
  • 决策层​:任务拆解、路径规划、策略选择
  • 执行层​:工具调用、接口编排、流程执行
  • 反馈层​:结果校验、异常处理、状态更新

当系统开始具备完整的“感知—决策—执行—反馈”闭环,其复杂度已经进入系统工程范畴,而不再是简单的 Prompt 调整问题。

在实际落地过程中,一些团队开始借助智能体平台来降低工程复杂度。例如,智能体来了公司 提供的企业级智能体方案,通过任务编排、工具治理与流程控制,将大模型能力封装为可复用、可运维的业务组件,从而缩短从模型能力到生产系统之间的距离。


三、技术人如何跨越“模型”与“工程落地”的鸿沟?

从已经成功推进 AI 应用落地的团队来看,往往具备以下几个共性特征。

1. 工程视角优先,而非模型视角

模型是能力来源,但并不是系统核心。
真正决定 AI 应用能否长期运行的,是一系列工程问题:

  • 数据流如何组织与校验
  • 异常如何兜底与回滚
  • 状态如何持久化与追踪
  • 多任务如何协同与调度

从本质上看,​AI 应用是一类“引入不确定性的分布式系统”​,而不是一个单纯的模型调用接口。


2. 重视“胶水层”能力建设

Python、工作流引擎、API 编排与任务调度工具,正在成为 AI 应用的关键基础设施。

它们负责把模型能力、业务系统、数据与云资源稳定地连接起来,解决的不是“能不能连上”,而是“能否长期可靠运行”。


3. 理解行业,而不仅是理解技术

通用大模型解决的是共性问题,而真正形成壁垒的,往往来自:

  • 行业知识结构
  • 业务流程理解
  • 长期沉淀的数据与规则

AI 的最终价值,并不体现在模型参数规模上,而体现在​具体业务场景中的系统能力​。


结语:AI 的下半场,属于“会做系统的人”

当模型能力逐步趋同,真正拉开差距的将不再是参数规模或榜单成绩,而是:

谁能把 AI 稳定、可靠、可持续地运行在真实业务系统中。

这,正是 2026 年被称为 AI 应用元年 的真正原因。

编者按: 英伟达财报的营收神话是否掩盖了其现金流恶化的现实?而在“循环融资”的质疑声中,OpenAI 与甲骨文等关键客户的供应链“去英伟达化”浪潮,又将如何重塑 AI 硬件的竞争格局?

我们今天为大家带来的这篇文章,作者的观点是:英伟达目前的高速增长依赖于激进的库存策略和宽松的信用条款,但其最大客户正通过定制芯片和直接采购关键组件来构建独立的供应链,这导致双方关系正从深度捆绑走向潜在的激烈竞争。

作者 | Philippe Oger

编译 | 岳扬

过去 48 小时,我完全沉浸在对英伟达 2026 财年第三季度财报[1]的深度研究中。如果你只看新闻标题,一切看起来都完美无缺:营收同比增长 62 %,达到 570 亿美元,黄仁勋还在大谈“AI 的良性循环”。

但我想弄清楚光鲜数据下的真实情况,于是深挖了资产负债表,并将其与围绕 OpenAI 和 Oracle 的所有新闻进行了交叉验证。 我并不是华尔街的专业分析师,但即便仅凭自己梳理线索(并借助了 Gemini 的帮助),我也开始看到这个所谓的“AI 联盟”出现了一些裂痕。就在英伟达创下业绩纪录的同时,他们最大的客户似乎正在悄悄武装自己,准备另起炉灶。

以下是我对硬件市场、OpenAI 与英伟达之间“亦敌亦友”的关系,以及包括迈克尔·贝瑞(Michael Burry)在内大家都在讨论的“循环融资(circular financing)”理论的一些看法。

01 英伟达财报:完美表象下的隐忧

表面看来,英伟达无疑是 AI 时代的绝对王者 —— 数据中心业务已占据公司总营收近九成,这一事实无可辩驳。然而,当我深入研读财报细节时,发现了三处值得警惕的“红色信号”

  • 现金流之谜:英伟达公布的净利润高达 319 亿美元,但我查阅现金流量表时发现,其经营活动产生的现金流仅为 238 亿美元。这意味着有 80 亿美元的利润尚未立即转化为现金。
  • 库存激增:我注意到,今年库存几乎翻倍,达到 198 亿美元。管理层解释称这是为“Blackwell”发布做准备,但在我看来,持有大约 120 天的库存量,会带来巨大的资金占用压力。
  • 应收账款周期拉长:我计算了其应收账款周转天数(DSO),发现已悄然攀升至约 53 天。在营收飙升的同时,英伟达却要等待近两个月才能回款,这暗示他们可能正在向企业客户提供极为宽松的信用条款,以维持增长飞轮的运转。

我的个人判断?英伟达正通过透支现金流来囤积库存,将全部赌注押在 Blackwell 架构[2]能在第四季度被市场瞬间消化。

02 拆解“资金空转”传闻的虚实

我想说清楚一点:接下来这部分内容并不是我最先发现的。最近财经新闻到处都在讨论这件事,而且如果你关注迈克尔·巴里(就是那位电影《大空头》里的“大空头”原型人物),你很可能已经看到他发推文警告所谓的“循环融资”和可疑的收入确认(Revenue Recognition)[3]行为。

我尝试自行理清这其中的关系,看看大家究竟在争论什么。巴里最近分享了一张图表,把这一系列交易描绘成一张交易“关系网”,其结构大致如下:

  • 环节一:英伟达承诺向 OpenAI 投资数十亿美元(这属于已被广泛报道的“千亿美元投资路线图”中的一部分)
  • 环节二:OpenAI 与甲骨文(Oracle)签署了一份高达 3000 亿美元的巨额云服务合同(即“星门计划”,Project Stargate),用于托管其人工智能模型。
  • 环节三:为履行该合约,甲骨文随即向英伟达下达价值 400 亿美元的 GB200 GPU 采购订单。

巴里的核心论点(也是据传美国司法部等监管机构介入调查的原因[4])在于:这套模式形同“资金空转”。这引发了一个尖锐的问题:如果英伟达停止向 OpenAI 投资,OpenAI 还有足够现金去和甲骨文(Oracle)签下那笔大单吗?而甲骨文又是否还会采购那些芯片? 如果答案是“不会”,那么部分营收数据的稳固性可能远不如表面看来那样坚实。

03 OpenAI 正在采取行动降低对英伟达的依赖

我近期一直在关注的另一个重大转变,是 OpenAI 的战略转向。他们曾是英伟达最耀眼的“模范客户”,如今却越来越像一个潜在的竞争对手。一方面,他们仍与 NVIDIA 保持紧密合作 —— 部署 10 吉瓦(gigawatts)的基础设施用于训练 GPT-6;但另一方面,他们似乎正在构建一条能彻底摆脱黄仁勋(Jensen Huang)掌控的供应链。

如果你有所留意,相关迹象其实已经相当明显。 “星门计划”(Project Stargate) 不仅仅是个数据中心,更是一项包含定制硬件在内的庞大基础设施计划。据多家媒体报道(例如此处[5]、此处[6]、此处[7],并在 Hacker News 上引发了激烈的讨论[8]),OpenAI 已直接从三星和 SK 海力士(全球两大 HBM 内存供应商)采购 DRAM 晶圆,绕开了英伟达的供应链。

此外,人才流向也透露出关键信号:OpenAI 已从数个行业巨头处挖走多名芯片人才,包括 2023 年招揽了谷歌前 TPU 负责人 Richard Ho,以及近期从苹果挖走的约 40 名硬件工程师。

结合 OpenAI 与博通(Broadcom)的合作[9],我推测其策略是:用英伟达 GPU 构建智能模型,但最终在自家的定制芯片上运行推理任务 —— 以此大幅削减高昂的运营成本,或押注类似谷歌 Edge TPU 的专用芯片(NPU)来处理推理负载。

但关键问题来了:OpenAI 打算用谁的钱来支持这项事业?而英伟达对其未来规划又究竟有多大影响力?

而且,所谓“英伟达向 OpenAI 投资 1000 亿美元”的说法,至今尚未得到官方证实(如此处[10]所述)。

04 甲骨文一个有趣的思路:收购 Groq

眼下所有人都在讨论推理成本问题(Inference costs) —— 也就是实际运行 ChatGPT 或其他大语言模型(LLM)的花销,远比训练它们更昂贵。我最近在关注 Groq 这家初创公司,他们明确宣称在推理任务上比英伟达更快、更便宜。其创始人乔纳森·罗斯(Jonathan Ross)[11]曾是谷歌 TPU 团队的负责人,甚至可以说是 TPU 概念的最初提出者。

但还有一层情况,我认为被大多数人忽视了:OpenAI 直接采购晶圆所引发的 HBM 短缺问题。

据我所知,目前英伟达最大的瓶颈之一就是 HBM(高带宽内存)。 HBM 由专业内存代工厂生产,而这些产线早已完全超负荷运转。然而,Groq 的架构依赖的是 SRAM(静态随机存储器)。 由于 SRAM 通常是在逻辑制程代工厂(比如台积电 TSMC)中与处理器本身一同制造的,理论上它不会遭遇与 HBM 相同的供应链紧张问题。

综合这些因素,我觉得甲骨文真该认真考虑一下收购 Groq。拿下 Groq 不仅意味着获得更快的芯片,更关键的是 —— 当其他芯片全都售罄时,Groq 的芯片可能仍然有货。这本质上是一种供应链对冲(supply chain hedge)。

对甲骨文的最大客户 OpenAI 而言,这也将带来巨大的优势:更快、更便宜的推理能力。

再结合此前的传闻:甲骨文出租英伟达芯片的利润率极其微薄[12],据传低至 14%,那这笔收购就显得更加合理。通过控股 Groq,甲骨文不仅能摆脱“英伟达税”(NVIDIA Tax),改善自身利润空间,还能彻底绕过 HBM 短缺的困局。

据 Groq 在 2025 年 9 月的最近一轮融资披露[13],其估值约为 69 亿美元。即便支付溢价,以甲骨文的财力也完全有能力完成这笔收购。

但问题是:英伟达会允许这事发生吗?

如果答案是否定的,那又说明了什么?是否意味着当前这套“循环融资(circular financing)”体系中存在某种利益交换 —— 比如,英伟达承诺向 OpenAI 投资 1000 亿美元,条件是甲骨文必须只能使用英伟达芯片?

05 Final Thoughts

进入 2026 年,观察英伟达、OpenAI 与甲骨文之间的博弈,这场三方角力正陷入彼此钳制的僵局。我无从得知英伟达是否事先知晓 OpenAI 与内存厂商之间的晶圆供应协议,亦或其中存在任何合谋?英伟达是否正在极力维持自己在“星门计划”(Stargate)中训练和推理环节的独家地位?而 OpenAI 又到底打算打造什么样的芯片?是类似 TPU/LPU 的架构?还是更偏向 Edge TPU 那样的边缘推理芯片?

迈克尔·巴里(Michael Burry)正在全面做空这套体系[14]。

至于我,只是个读财报的普通人,无力揣测市场走向。但我非常确定一点:AI 硬件市场比以往任何时候都更炽热,未来几个季度的风云变幻必将精彩绝伦。

免责声明:我偶尔会发表些真知灼见,但更多时候说的都是蠢话。阅读本文时请务必谨记这一点。

END

本期互动内容 🍻

❓如果“循环融资”属实,谁最可能成为这个链条中最先断裂的一环?

文中链接

[1]https://nvidianews.nvidia.com/

[2]https://www.nvidia.com/en-us/data-center/technologies/blackwe...

[3]https://www.investing.com/news/stock-market-news/michael-burr...

[4]https://m.economictimes.com/news/international/us/nvidia-reje...

[5]https://openai.com/index/samsung-and-sk-join-stargate/

[6]https://www.asiafinancial.com/samsung-sk-hynix-building-starg...

[7]https://www.kedglobal.com/artificial-intelligence/newsView/ke...

[8]https://news.ycombinator.com/item?id=46169224#46170844

[9]https://openai.com/index/openai-and-broadcom-announce-strateg...

[10]https://fortune.com/2025/12/02/nvidia-openai-deal-not-signed-...

[11]https://www.linkedin.com/in/ross-jonathan/

[12]https://www.fool.com/investing/2025/12/02/michael-burry-just-...

[13]https://groq.com/newsroom/groq-raises-750-million-as-inferenc...

[14]https://www.techradar.com/pro/security/could-the-ai-bubble-be...

本文经原作者授权,由Baihai IDP编译。如需转载译文,请联系获取授权。

原文链接:

https://philippeoger.com/pages/deep-dive-into-nvidias-virtuou...