标签 世界模型 下的文章

2025 年,技术世界看起来既热闹又拥挤。

从开源大模型引发全球讨论,到 Agent 能力快速演进;从低空飞行、人形机器人走向现实应用,到量子技术不断刷新实验纪录,前沿技术在多个方向上几乎同时取得进展。但当这些热点被放在同一时间轴上回看,一个更深层的共性逐渐浮现:技术竞争的重心,正在从单点能力突破,转向系统级、工程级与生态级竞争。即技术的想象空间仍在扩张,但技术价值的释放,正越来越依赖完整系统、基础设施能力以及产业协同水平。

在 AI 领域,这一变化尤为明显。开源模型、MCP 等协议、多模态与 Agent 进一步迈向实际生产环境,使竞争不再只围绕模型参数或单次效果展开,而是延伸到推理效率、成本结构、系统稳定性与可治理性等更底层的问题。与此同时,在实体与基础科技领域,eVTOL 适航审定取得突破、人形机器人进入公众视野、量子计算持续推进,也在不断放大工程化与规模化落地的复杂性。

在这样的背景下,InfoQ 研究中心完成了《中国软件技术发展洞察和趋势预测研究报告 2026》。这份报告并未试图给出统一结论,也没有将未来简化为几条明确路径,而是从事实盘点出发,对过去一年软件技术的发展状态进行了系统整理,试图还原不同技术方向在真实环境中的推进情况。报告更关注技术如何被使用、如何被限制、如何在复杂系统中产生实际影响。更多内容也欢迎各位读者点击「链接」,下载完整报告进行阅读。

回望 2025 ,模型仍在中心,但决定性因素已经发生迁移

2025 年一个明显的变化是,模型依然处在技术演进的中心位置,但讨论重点已经发生迁移。模型能力仍在提升,但其边际影响开始放缓,推理效率、成本结构、系统稳定性的重要性持续上升。在真实场景中,能否稳定运行、能否控制成本、能否嵌入现有系统,往往比单次能力表现更具决定性。

这一变化,直接将 AI Infra 推向了更靠前的位置。过去,基础设施更多被视为模型能力提升的配套条件,关注重点集中在算力规模、训练效率与资源调度;而在 2025 年的实际应用中,AI Infra 的核心价值,开始体现在对不确定性的吸收与管理能力上。推理阶段的成本控制、运行过程的可观测性、异常状态的隔离与回滚、跨系统的稳定衔接,这些能力正在成为 AI 能否进入核心业务流程的前提条件。

当 Agent 进入真实生产环境,这一趋势被进一步放大。

与能力展示型应用不同,能够执行具体任务的 Agent,其行为不确定性更高,执行失败、路径偏离、资源误用等问题更容易直接影响业务结果。在这一过程中,执行环境的隔离、权限边界的设定、状态记录与追溯能力,开始成为 Agent 系统不可缺少的一部分。AI Infra 在这里不再只是运行环境,更是治理框架的一部分。

从更长的时间尺度看,这种对基础设施能力的重视,正在重新塑造 AI 技术的演进节奏。模型能力仍在向前推进,但其价值释放越来越依赖 Infra 是否能够将复杂性留在系统内部,将稳定性交付给使用者。这一趋势,在 2025 年已经初步显现,也成为观察 2026 年技术走向时不可忽视的背景之一。

开发领域的变化尤为典型。Coding 场景率先完成了从能力展示到生产力工具的跨越,Vibe Coding 在实际工作中快速扩散,同时也暴露出代码质量、责任归属、流程治理等新的问题。这些变化,让开发者工具、工程规范与平台能力重新回到技术讨论的核心位置。

在大模型的更中心,我们也看到了新的方法论和模型架构正在持续推进。围绕 RLVF 等训练范式的探索,模型在对齐方式、反馈机制以及长期目标建模上的能力不断被强化。与此同时,多模态能力也在发生结构性变化,从早期的多模态拼接,逐步走向原生多模态,再到对原生全模态和世界模型的探索,模型试图以更统一的方式理解和生成复杂世界,甚至预测和改变物理世界。

更进一步,在生态层面,围绕 Agent 和工具协作的协议开始形成共识,开源与闭源在不同市场呈现出差异化路径。中国力量在这一过程中逐渐显现出自身的特点。从 2025 年的实际进展看,开源在中国技术生态中承担的角色正在发生变化。它不再只是代码共享或技术展示的载体,而是逐渐融入到标准共识、工程协作和生态协同之中。围绕模型、Agent、工具链和基础设施的开源项目,开始更多地服务于真实场景,推动技术在复杂环境中的适配与演进。

这些变化并非孤立发生,而是与前述模型演进、基础设施成熟度以及 Agent 落地进程相互交织。它们共同构成了 2025 年技术世界中一个不易被单一指标捕捉,却正在逐渐成形的重要背景,也为理解 2026 年技术走向提供了更具现实感的参照。更多内容也欢迎各位读者点击文末的「阅读原文」,下载完整报告进行阅读。

前沿技术拓展技术想象空间,并主动探索与 AI 的结合

除了 AI 本身,我们也看到了星地互联网、量子技术、低空飞行等领域在 2025 年出现了具有标志意义的进展。星地互联网在组网能力、覆盖密度和应用场景上持续推进,从验证通信能力,逐步转向面向真实业务的服务体系建设。量子技术在计算、通信和测量等方向继续取得实验层面的突破,同时也开始更多讨论其工程化路径与现实约束。低空飞行相关技术则在政策、基础设施和应用探索的共同推动下,加速从概念验证走向实际运行环境。

这些领域的发展路径各不相同,但一个共同特征是,都在主动探索与 AI 的结合方式。AI 被引入到复杂系统的调度、控制与决策之中,用于提升整体系统的运行效率和适应能力。在星地互联网中,AI 开始参与网络资源分配与链路管理。在量子技术相关研究中,AI 被用于辅助实验设计、参数搜索与系统优化。在低空飞行场景中,AI 则更多承担环境感知、路径规划与风险评估等任务。

从 2025 年的实践情况看,这种结合更多体现在局部能力增强,而非系统级重构。AI 并未改变这些技术的基本发展节奏,但正在逐步嵌入其关键环节,影响技术系统的复杂性管理方式。这也意味着,这些前沿领域的演进,正在越来越多地依赖于 AI 基础设施、算法稳定性以及系统工程能力的成熟程度。

这些探索尚处在不同阶段,却共同指向一个趋势。随着技术系统本身变得更加复杂,AI 正在成为连接不同技术要素的重要工具,而这种连接关系,也将在未来进一步影响这些领域的演进方式与应用边界。

展望 2026,InfoQ 研究中心十大技术趋势

技术演进常常伴随着喧嚣与关注,但真正决定其走向的变化,更多发生在基础能力、系统结构与生态关系的持续调整之中。那么,在 InfoQ 研究中心的观察中,2026 年的技术世界将呈现出怎样的状态?InfoQ 研究中心尝试用十大趋势的方式,对这个问题进行拆解和呈现。

  • 趋势一:收敛已久的 Transformer 架构,即将迎来分化与创新新阶段

  • 趋势二:RLVR 范式应用扩展与持续演进,经验学习等新范式正在路上

  • 趋势三:原生多模态成为默认能力,原生全模态加速成型,世界模型技术路线迎来首轮技术收敛周期

  • 趋势四:AI 推理基础设施凸显战略价值,系统化工程决定长期竞争力

  • 趋势五:Agent 迈向结果交付,Agent Infra 从算力基础演进为风险可控、可验证、可托付的业务级支撑

  • 趋势六:C 端应用,记忆机制与生态整合成为核心壁垒

  • 趋势七:AI 硬件持续在垂类场景破局,手机仍是核心管理与交互中心

  • 趋势八:有竞争就有动力,中国继续以开源撬动世界影响力

  • 趋势九:AI for Science 推动科研生态升级,科学伦理面临深刻变革

  • 趋势十:前沿技术交融,智能协作开启新格局,系统级能力强化科技与战略话语权

相关分析与完整内容,已收录在《中国软件技术发展洞察和趋势预测研究报告 2026》中。更多内容也欢迎各位读者点击「链接」,下载完整报告进行阅读,与 InfoQ 研究中心一同探索 2026 年的技术世界。

更多 AI 与技术前沿研究成果,也欢迎点击浏览「行业研究报告」专题。

世界模型真的变天了!

今天,谷歌正式发布重磅世界模型原型产品“Project Genie”,只需一句话或一张图,就能一键生成可玩、可交互的实时虚拟世界。它的重磅程度,让谷歌“掌舵人”劈柴哥和 Google DeepMind 创始人哈萨比斯亲自为它站台。

在 Project Genie 生成的虚拟世界中,你可以用 WASD 键移动角色、旋转视角、跳跃,在生成世界自由探索。更重要的是,其生成画面的精细度、整体完成度,已经明显超出以往研究型 Demo 的范畴,在观感上直逼成熟游戏产品。

过去几年,世界模型一直被认为是通往 AGI 的重要路径,但始终存在一个根本问题:它们更像会动的视频,而不是真正的环境。

具体来说,早期世界模型普遍存在几大短板:

  • 生成世界质量偏低,结构简单

  • 难以实时交互,或只能交互一两步

  • 长期一致性差,画面和规则会“漂移”

  • 不符合物理和因果逻辑,更像梦境而非世界

而 Project Genie,第一次把这些问题同时拉到了可用水平。

Project Genie 是一个基于 Genie 3、Nano Banana Pro 和 Gemini构建的原型 Web 应用,其中的核心是谷歌最新的世界模型 Genie 3。

与以往“先生成完整视频”的方式不同,Genie 3 采用自回归生成机制:它会根据世界描述和用户操作,逐帧生成环境状态,而不是播放预先生成好的内容。

这带来了几个关键变化:

  • 长期一致性生成的世界可以在数分钟内保持稳定,不会快速崩坏;系统还能“记住”用户造成的关键变化,记忆时间最长可达约一分钟。

  • 真正的实时交互世界以 20–24 帧/秒运行,用户的操作会即时反馈到环境中,而非触发预设结果。

  • 更高质量的视觉表现生成画面分辨率约为 720p,整体真实感和细节水平明显高于以往世界模型,为智能体理解复杂环境提供了更可信的视觉基础。

谷歌早在 2025 年就将 Genie 3 称为“通往 AGI 的关键一步”。而在 Project Genie 的官方页面中,谷歌再次强调:

Genie 3 让智能体能够预测世界如何演化,以及自身行为如何影响世界,这是实现推理、规划和现实行动的基础。

可以说,在 Project Genie 身上,已经释放出一个非常明确的信号:世界模型正在从长期的前沿研究方向,正式迈入可落地、可探索的关键阶段

一旦世界模型能够稳定生成高质量、可交互、具备长期一致性的环境,其应用边界将被迅速打开。

无论是自动驾驶中的复杂场景模拟、具身智能的环境理解与决策训练,还是游戏开发、影视制作、互动教育与新型媒体内容创作,世界模型都展现出极具想象空间的潜力。

据 The Verge 报道,谷歌选择在这一时间点推出 Project Genie,部分原因在于希望观察用户的真实使用方式,从而发现此前尚未预料到的新应用场景。

Google DeepMind 产品经理 迭戈·里瓦斯透露,谷歌内部已经对 Genie 在电影制作、互动教育媒体等领域,帮助创作者进行场景可视化与世界构建的潜力感到兴奋。

目前,Project Genie 仍是实验性产品:

  • 单个世界最长探索 60 秒

  • 分辨率约 720p,帧率约 24fps

  • 仅向美国地区、18 岁以上的 Google AI Ultra 订阅用户开放

Project Genie 发布后迅速引发热议。马斯克第一时间发文祝贺

关于 Project Genie 的讨论,也在 X 上迅速扩散,不少网友将其称为又一个“变革时刻”。

对此,Project Genie 负责人之一 Jack Parker-Holder 表示:

Genie 3 感觉像是世界模型领域的一个分水岭。我们现在可以生成任何可想象世界的、持续数分钟的实时交互式模拟。这可能正是具身通用人工智能此前缺失的关键一环。

网友们玩疯了,在游戏世界释放创意

具体来看,Project Genie 的使用流程并不复杂。进入页面后,用户可以直接从 Google 预设的多个世界模板中选择,也可以完全自定义环境和角色,构建一个专属的虚拟世界。

为实现更精准的控制,Project Genie 会用 Nano Banana Pro 的能力,先为生成世界打个“草稿”。

整个页面被清晰地分成左右两部分:

  • 左侧用于填写环境的 prompt,例如地形结构、视觉风格和整体氛围;

  • 右侧则用于描述主角的形象与设定,并可选择第一人称或第三人称视角,从而提前确定进入世界后的体验方式。

完成初步设定后,Genie 会先生成一个缩略图,可以对生成内容进行预览和微调。如果符合预期,就能进入生成世界,开始实时交互与自由探索。Genie 3 的响应延时非常低,在控制角色移动时,会带来强烈的沉浸感。

在官方案例中,你可以把自己变成一个球,在草原上自由滚动。

可以看到,如果转换视角,球滚动留下的痕迹并不会消失,新生成的内容也不会覆盖旧区域。这一细节直观地体现了 Project Genie 所强调的世界一致性。

在另一个官方案例中,你可以变成刷墙工人,想刷哪面墙就刷哪面,整个虚拟世界可以实时交互,且看起来十分合理。

谷歌表示,这是想象力空间的无限释放,无论是自然世界或现实场景,还是构建动画、小说中的奇幻世界,甚至是突破时间与空间限制的未来世界,都可以被创造出来。

不少网友迅速上手,开始“放飞自我”式创作,其中,各类游戏风格世界不断涌现。

比如在沙滩上骑摩托:

更绝的是直接制作山寨版“任天堂”游戏。比如马里奥系列,《塞尔达传说》,《银河战士》。

即便抛开体验层面的不足不谈,Project Genie 在生成世界的质量与完成度上,依然足以令人震撼。这也难免让人产生进一步的联想,游戏从业者会不会大规模失业?

这一担忧并非空穴来风。根据 Informa 本周发布的游戏开发者大会(GDC)报告,33% 的美国受访游戏开发者、以及 28% 的全球受访游戏开发者表示,他们在过去两年中至少经历过一次裁员。Project Genie 可能会进一步扩大这种趋势。

不过,围绕 Project Genie 的能力边界,也有人提出质疑。

The Verge 的记者亲自上手试验后认为,从“游戏”的角度来看,Project Genie 所生成的“可玩世界”显得相当单调。

除了基础移动操作外,玩家几乎无事可做。没有任务目标,也缺乏音效反馈。更糟糕的是,输入延迟时有发生,甚至会出现角色失控、只能旋转视角的情况,严重影响整体体验的流畅度。

该记者还提到,在仅有 60 秒 的探索时间内,世界的一致性并不稳定。系统有时会“忘记”此前生成的内容,例如滚动的小球留下的颜料痕迹会突然消失,已生成的道路也可能被重新覆盖为草地。这些现象让人难以确认模型是否能够持续、可靠地维护同一个世界状态。

在内容生成层面,Project Genie 对知名游戏 IP 也存在明显限制。测试中,索拉、唐老鸭、高飞、杰克·斯凯灵顿等角色均无法直接用于生成可交互世界,相关内容在进入实际体验阶段会被系统拦截。

目前,与生成世界交互的智能体只能执行较为有限的操作,同一世界中多个模型之间也难以协同互动。此外,Genie 在渲染清晰文本、还原现实世界具体地点方面仍存在困难,智能体对控制指令的响应有时也会出现异常延迟。

对此,谷歌方面回应称,Genie 并非游戏引擎,团队更关注它在增强创意过程、提升构思能力以及加快原型制作方面所展现出的潜力。

在 Geinie 3 官网上也特别强调,目前产品仍处于早期研究阶段,因此会有:生成的世界可能看起来并不完全逼真,也不一定总是严格遵循提示、图像或现实世界的物理规律;角色有时可能难以控制,或者控制延迟较高;生成时间受限等问题。

Project Genie 团队深度揭秘关键问题

在 Project Genie 上线不久,其背后的核心团队第一时间接受采访,包括 Google DeepMind 研究总监 Shlomi Fruchter、Google DeepMind 的研究科学家 Jack Parker-Holder、产品 Diego Rivas,他们都对世界模型长期关注,在这次访谈中深度揭秘 Project Genie 的关键问题。

这次对话讨论了:什么是世界模型?为什么只能生成 60 秒?Project Genie 的研发历程是什么?它未来真正可能改变的是哪些领域?

他们首先承认 Project Genie 的强大确实源于谷歌视频生成技术的积累,但同时他们也强调,Genie 并不是更强的“视频模型”,而是人类第一次可以实时走进、操控、改变的生成世界。

其中的核心差异是,世界模型是逐帧实时生成,能与过去保持物理与视觉一致性,并且用户可随时干预。这对延迟、内存、算力的要求,比普通视频生成高得多,也是更前沿、更有挑战的方向。

针对不少人抱怨“60 秒不够”的问题,他们表示这是在服务成本、系统稳定性和体验质量之间做出的权衡。他们其实已经做出过更长时间的生成世界,但在实际测试中发现,随着生成时间拉长,世界的动态感反而会逐渐减弱。

研究员表示“与其花两分钟体验一个世界,不如花一分钟体验两个不同的世界,体验感会更好。”

针对模型的生成速度,他们表示已经够快了,短期内进一步“加速”并没有太大意义。接下来,他们更重要的研发方向,是降低算力成本,让这种能力能够被更多人真正用得起。

在产品定位上,他们并不把 Genie 看作一款游戏,而更像是一个正在快速演化的实验场:

  • 一方面,多人互动、长期一致性、复杂动态仍然是明确的技术瓶颈;

  • 另一方面,娱乐、教育、具身智能、机器人训练等方向,已经展现出非常清晰的应用前景

回顾产品研发历程,从论文阶段的 Genie 1,到今天普通用户可以亲自上手体验的 Genie 3,这背后其实是谷歌一整套高度协同的跨部门合作。

谷歌实验室与谷歌创意实验室是研发的核心力量,而服务团队、基础设施团队和沟通团队则共同兜底,确保这项起源于强化学习的前沿研究,能够被真实用户理解、体验并持续使用。

当团队回看去年八月时,他们很清楚,当时外界已经迫不及待想“走进这个世界”,但 Genie 仍然只是一个规模庞大的研究项目。即便如此,研发人员脑海中已经浮现出一系列潜在应用场景,其中最清晰的方向之一,正是具身智能。一个标志性的例子,是他们与 Simmer 项目的长期合作。

Simmer 是由双子座模型驱动的目标导向智能体,能够在 3D 世界中执行复杂任务。过去,它只能在少数几个固定游戏环境中训练;而现在,借助 Genie 3,只需一句文本指令,就能生成一个全新的、甚至是照片级写实的虚拟世界,把智能体直接“放进去”完成任务。

从 Nano Banana Pro 的图像创作,到谷歌视频生成的成熟,再到可交互的世界模型 Project Genie ,生成式技术正在构成一个连续体,世界模型将成为第三次技术跃迁。

以下是播客的更多细节,欢迎来看:

为什么只能 60 秒?

主持人:我很好奇,这背后的物理逼真度,是不是和我们在 VO(谷歌的视频生成模型)项目上取得的研究突破有关?感觉两者之间有相似之处。

研究员:二者绝对是相关的,而且世界模型的研发难度其实更高。普通的视频模型,能在整个视频的时间线上自由调整过去和未来的帧,自由度很高 —— 就像有一块画布,模型能随时间生成视频,在画面的各个位置做微调,让整体效果连贯美观。

世界模型的难点在于,世界是持续演变的,每一帧的输入都是未知的,模型必须保证生成的画面既和过去的内容连贯,又能匹配用户当下的操作,所以技术难度会大很多。

其实开发 Genie 1 时,我们用的是 Imagine 模型,当时我们的模型效果并不好,而且想要生成合适的图像也非常困难。Nano Banana Pro 是在Genie 3 之后推出的,技术进步的速度真的令人惊叹。也许未来某一天,我们定义虚拟世界的方式,将不再局限于图像和文本,但就目前而言,这种方式已经给了用户足够的创作灵活性。

主持人:这个模型的复杂度上限在哪里?比如能不能在同一个世界里加入大量并行的互动元素?模型会在什么情况下出现效果衰减?

其实 Nano Banana Pro 就是个很好的例子,如果一张图片里有 10 个人脸,想要对这张图进行编辑,模型就容易出问题。所以我想知道,Genie 3 的自然性能边界在哪里?

研究员:这个模型肯定不是完美的,目前它还只是一个研究预览版本。我们希望让大家亲自体验,看看它的优势在哪里,不足又在哪里,我们也能从用户反馈中学习和优化。

目前模型在各类创意环境的视觉呈现上做得不错,画面可以非常精致,但在世界的动态表现上还有短板 —— 有时候初期的动态效果很好,但时间久了,动态感会逐渐减弱,这也是我们正在优化的点。不过它的表现已经足够令人惊喜了,所以还是建议大家亲自上手试试,看看哪些玩法能达到理想效果。

研究员:不过说到延迟问题,还有很多技术点需要考虑。Genie 3 的研发有一个核心约束:我们希望实现特定操作频率下的实时低延迟,也就是说,用户操作的往返延迟要极低。同时,内存也是一个巨大的约束 —— 模型的上下文长度越长,通常算力成本就越高,运行速度也会越慢。

所以研发的核心挑战,就是平衡这些相互冲突的目标。而在研究层面,我们正在所有这些领域持续优化,我们相信,模型的性能会不断提升,变得更强大、更快、更经济,这也是行业的整体发展趋势。

主持人:我还有个问题,模型的生成时长是人为限制在 60 秒,还是真的能实现 3 到 5 分钟的连续生成?

研究员:其实我们已经做出过能连续生成更久的演示版本了,但我们觉得 60 秒是一个比较合适的时长 —— 既能让用户充分体验虚拟世界,又能保证为足够多的用户提供服务,这其实是在服务成本上做的权衡。

而且就像我们之前提到的,生成时间越长,世界的动态感会逐渐减弱。所以我们觉得,与其花两分钟体验一个世界,不如花一分钟体验两个不同的世界,体验感会更好。当然,如果用户反馈希望延长时长,我们也会做出调整。

这也和虚拟世界的类型有关,比如如果你在体验高山速降滑雪,两分钟的时长会很过瘾,因为整个过程是持续的动态体验;但如果只是探索图书馆,两分钟可能就没那么有趣了。

主持人:是啊,人们总是能很快适应新的技术体验。但对我来说,这个模型的表现依然令人难以置信。你之前被问到能不能让模型运行得更快,现在的速度已经到极限了吗?

研究员:在当前实时交互需求下,生成速度已经足够快,短期内进一步加速的意义不大。因为模型是实时生成虚拟世界的,速度再快其实也没有意义了 —— 它的生成速度已经和用户的体验速度完全匹配。接下来我们的研发重点,会放在降低算力成本上,这样才能让更多人用上这款产品。同时,在保持速度的前提下,不断增加新功能,这本身也是一个巨大的挑战,我们希望在各个方面都把模型做得更好。

背后的故事:谷歌跨团队协作

主持人:聊完当下的体验,我特别想知道模型的未来迭代方向。不过在聊未来之前,我们先回顾一下研发历程吧。我们八月份发布了 Genie 3 的首支演示视频,之后启动了可信测试,不断迭代产品、搭建基础设施。能不能跟大家快速讲讲,从一支惊艳的演示视频、小规模的早期测试,到正式推出面向用户的精灵计划,这中间都经历了什么?

研究员:首先,八月份发布模型和演示视频后,我们让一小部分人体验了产品,核心是为了收集反馈 —— 因为这是一款全新的应用,一种全新的体验,我们需要思考如何负责任地将它推向市场。

从那以后,我们的大部分工作都集中在基础设施、服务架构和成本控制上,毕竟我们希望能让尽可能多的用户体验到它。而美国的谷歌 Ultra 订阅体系,能让我们触达足够多的用户,收集到第一手的反馈:比如用户觉得哪些功能有用,会如何和产品互动,哪些玩法体验最好。这段时间里,我们也在持续完善可信测试项目。

这其实是模型开发周期中最核心的阶段,因为我们能从不同类型的用户身上学到很多东西,无论是创意工作者,还是教育领域的从业者,都能给我们带来丰富的洞察,让我们知道模型目前的实际应用价值、未来的发展方向,以及哪些体验是用户最期待的。

回头看八月份,当时我们知道大家肯定想体验这款产品,但它那时还只是一个大规模的研究项目。我们脑海里有很多应用场景,比如智能体、机器人这类具身智能领域,都能用到这项技术。去年年底还有一个和我们类似的项目发布,他们也用Genie 3 来训练游戏智能体。

从消费端的角度来看,我们觉得这个产品会很有吸引力,所以想收集用户反馈,但当时也不确定是否已经到了面向更多用户发布的时机。而迭戈主导的可信测试项目,让我们发现,用户第一次上手这款产品时,都会有惊艳的体验。我们希望深入了解更多的应用场景,所以这次的发布,也是我们在这方面迈出的一大步。

一年前,我根本没想到这个模型能有这么强的吸引力,但现在它已经成为一款非常有趣的产品,我们也很期待大家会用它来做什么。

主持人:聊完产品和技术,我们再来聊聊谷歌的跨团队合作吧。显然,从你们的分享和幕后工作来看,打造这款产品的难度非常大。谷歌内部有哪些团队参与了 Genie 3 和 Genie 的研发?

研究员:幕后参与的团队非常多,谷歌实验室、谷歌创意实验室是核心 —— 画廊里的那些虚拟世界,大多是创意实验室的作品;还有服务团队、基础设施团队,基本上有一个完整的幕后团队在推动这项工作。从八月份发布模型到现在,我们一直在全力冲刺,所有团队的付出都堪称英勇。

我们还和沟通团队深度合作,因为想要向大家解释一款全新的模型,一种大家从未体验过的技术,是一个非常细致的话题 —— 它起源于强化学习这个相对小众的领域,现在却被媒体、社交媒体上的各类人群广泛讨论,所以用正确的方式传递这项技术,非常重要。

回顾这个领域的研究起点,我们甚至不确定这项技术能否成功落地。而现在,我们让它实现了实时交互,达到了不错的画质,完成了从研究构想到发布模型,再到推出面向用户的体验产品的闭环,这一点让我非常兴奋。这并非理所当然,也充分体现了谷歌内部跨技术栈的团队协作能力,这种能力非常独特。

主持人:我们在镜头外还聊过,不仅是 Genie 3,谷歌所有模型的能力都在不断拓展,而这和模型的训练方式息息相关。杰克,你之前还尖锐地提到,这些模型其实并没有针对任何特定的应用场景进行训练,却能在各个领域实现很好的泛化能力,能不能再聊聊这一点?

研究员:没错,我们一开始其实并不知道这个模型的具体应用场景。去年年底,Genie 团队还在做纯粹的研究项目,Genie 1 最初只是一篇研究论文,和 VO(谷歌的视频生成模型)完全不同。

与此同时,我们还在做 Doom 游戏引擎的相关研究,这项研究充分展现了实时交互的潜力,但它仅适用于 Doom 这一个特定的游戏世界,迭戈可以再聊聊这一点。

另外,2024 年 12 月 VO(谷歌的视频生成模型)2 的发布,在 AI 领域已经是很久以前的事了,但当时我看到它的效果时就觉得,视频生成技术已经成熟了,视觉质量达到了行业前沿,值得我们深入探索。

于是我们达成共识,认为这项技术的潜力无限,随后组建了跨团队的研发小组,汇集了各个领域的专家 —— 他们都在不同的技术领域有积累,我们相信把这些技术结合起来,会产生不可思议的效果。而我们的研发,并非针对某个特定的下游应用场景,而是因为它蕴含着无数的应用可能。

最酷的是,我们脑海里有一些预想的应用场景,比如和 Simmer 项目的合作,我们和这个项目的合作已经有很长时间了,他们也参与了 Genie 2 的研发,体验过 Genie 2,现在已经基于 Genie 3 发布了相关产品。

Simmer 是我们最强大的目标导向智能体之一,能在 3D 世界中互动,是由双子座模型驱动的 —— 你可以在 3D 世界中向它输入文本指令,它就能完成各种不同的目标,泛化能力非常强,还能通过自我提升学习。这也是我们迈向通用人工智能、具身智能的重要方向。

去年年底我们发布了这款智能体,他们就用 Genie 3 的虚拟世界来探索智能体的能力。要知道,Simmer 原本只在几款游戏中接受过训练,但现在借助 Genie 3,你只需输入文本,就能创建一个全新的、甚至是照片级写实的虚拟世界,然后把智能体放进去,看它完成各种任务。这两个项目的结合,可以说是水到渠成。

未来的应用领域:娱乐、教育、具身智能

研究员:从应用层面来说,我个人对娱乐和教育领域的应用最期待。我们希望让更多人体验这款产品,看看凭借现有的技术,现在能打造出哪些应用。教育领域是我们重点关注的方向,比如让人们在虚拟世界里互动学习 —— 想象一下,能为用户打造一些他们在现实中无法体验的场景,比如一个孩子害怕蜘蛛,我们可以打造一个满是蜘蛛的房间,让孩子在虚拟世界里慢慢适应,克服恐惧。我的孩子就怕蜘蛛,所以我觉得这种个性化的全新体验,价值非常大,这也是我们近期的研发重点。

另一方面,我们之前也聊过,机器人技术和具身智能领域的世界模型,潜力也非常大。当然这个领域还有很多研究工作要做,但我个人对它充满期待。简单来说,核心思路就是:如果一个模型能模拟现实环境,那我们就可以用它在虚拟世界里训练机器人,或是让具身智能体在虚拟世界里学习,甚至实时辅助智能体做出决策。

Genie 计划虽然现在已经很惊艳了,但它只是一个起点。未来我们会和谷歌实验室继续深度合作,不断优化产品的功能、操控方式、应用架构等;也会拓展更多的使用场景,不局限于Genie 计划这一个应用,还会推出开发者 API,让更多开发者参与进来。

不得不说,开发者总能发掘出产品的商业价值,找到极具经济影响力的应用场景,这也是我觉得很有意思的一点 —— 除了娱乐,世界模型还能在哪些领域找到产品市场契合点。

而且很多功能在不同的应用场景中是相通的,比如更广泛的交互性。可以肯定的是,机器人技术的发展,不可能只靠方向键来实现,未来的机器人助手需要更多的操控方式,而这和虚拟世界的交互研发是相通的。

八月份发布 Genie 3,让我们成为首批推出这类模型的团队,也让我们能和谷歌内部的各个团队展开合作。我们会认真吸纳所有的用户反馈,把大家提出的建议都列出来,成为下一代模型的研发方向。我之前跟杰克说过,我们只实现了目标的 50%—— 因为我们总是会设定极具野心的目标,这个领域还有太多可以探索的地方,模型还有很多不足,需要我们不断优化。

这个领域的发展空间巨大,我们才刚刚起步。就像写论文一样,一个项目完成后,你马上就会想,下一个项目可以加入哪些功能,做得更好。

现在社区里也出现了很多有趣的世界模型,有些和 Genie 3 很相似,但我们的目光已经放得更远了。

怎么玩这个产品?

主持人:除了研发历程和未来规划,还有没有什么想跟大家分享的?比如对于即将体验这款模型的用户,你们有什么建议?毕竟你们比普通人花了更多时间研究和使用模型。

研究员:我建议大家尝试个性化创作,打造属于自己的、其他系统无法实现的世界。当然,用它打造游戏环境也很有趣,但这类场景其他系统也能做到;而把现实中的专属事物 —— 比如一个玩具、一张照片,或是让自己以特定风格出现在真实的环境中,这种体验是独一无二的。

这让我想起了 VO(谷歌的视频生成模型)早期的一个研究项目:有人用 VO(谷歌的视频生成模型)为阿尔茨海默病患者重现童年记忆,让他们在虚拟世界里重温过去,这个项目特别棒。所以我觉得,把个人专属的事物融入虚拟世界,让它们 “活” 过来,这种互动方式非常有价值,大家可以试试这个方向。

另外,大家肯定会发现,模型的提示词创作目前还不够完善,但这恰恰是机会。几年后当这个模型变得非常成熟时,大家会想起现在这个阶段,就像我们现在看待 VO(谷歌的视频生成模型)3 一样 —— 现在 VO(谷歌的视频生成模型)3 的每个提示词都能生成优质视频,精灵 3 号的每个提示词基本也能实现预期效果,但在早期,提示词的创作至关重要,甚至有人会花 10 到 20 分钟精心打磨一个提示词。

所以如果第一次创作的效果不好,别放弃,这款全新的模型,可能会以你意想不到的方式呈现出惊喜的效果。而且亲自上手体验,你就不是在消费一款产品,而是在探索前沿技术。

主持人:太认同了,“探索前沿技术” 这句话简直可以当作产品标语了。我还有一个觉得很有趣的点:当被动的媒体消费变成交互式的体验,会发生什么?这是一片全新的未知领域。过去也有人做过尝试,但现在有了这种真正定制化的交互式媒体叙事,它会给整个媒体和娱乐行业带来什么影响,真的太值得期待了。

研究员:还有一个玩法也很有趣,你可以在虚拟世界里设置挑战,把这个世界分享给别人,让对方完成任务,比如从 A 点走到 B 点。这是一种基础的、有目标的游戏体验,现在的模型已经能实现了。比如那个球的场景,你可以让别人用球写出自己的名字,这类简单的挑战都能设置。

就像杰克说的,现在的体验虽然还比较基础,但它蕴含着巨大的创意潜力。比如还有一个带环的场景,你可以操控角色穿越环道,体验飞行的感觉,这也是用户发掘的玩法。

人们还经常问,行业的前沿在哪里,我们下一步要做什么。我经常会做一件事:长时间沉浸在 Genie 3 的第一人称写实世界里,然后看向窗外,对比虚拟和现实的差距。我认为最终,虚拟世界会和现实世界变得几乎无法区分,虽然今天我们不深入聊这个话题,但从模型的性能发展来看,这显然还有很长的路要走。但如果能生成和现实高度逼真的世界,在里面自由移动、互动、完成各种事情,那该多不可思议。

而这也是驱动我们开展这项研究的核心愿景:想象你拥有一个宇宙的副本,你可以在其中随心所欲。显然,这个副本有巨大的应用价值,能用到很多领域。这虽然是一个非常远大、甚至可能无法实现的目标,但它就像北极星一样,一直指引着我们。

比如我们这次把恐龙鲍勃放进虚拟世界,其实就是在重构现实空间,给现实事物做有趣的增强。未来这方面的探索,一定会非常有意思。

主持人:那到 Genie 5 的时候,我们可能真的会分不清自己是在现实还是在模拟世界里了。

世界模型是第三次技术跃迁

主持人:我还有一个有点尖锐的问题想问问大家:你们觉得,大多数人体验到世界模型的时间线会是怎样的?世界模型会先通过企业端影响普通人的生活吗?比如企业利用世界模型提高生产效率,打造更好的日常产品;还是说,未来普通人的日常生活中,会直接和世界模型产生互动?如果是后者,这个时间线大概会是多久?

研究员:这其实取决于你如何定义世界模型。如果是指交互式的视听体验类世界模型,我认为今年、明年,就会有越来越多的人接触到它,我们也会看到它在一些领域大放异彩,最终成为很多应用的基础功能。

但就像现在的视频生成技术,虽然发展很快,但真正融入普通人日常生活的比例其实并不高,世界模型也需要时间来完成用户普及,找到合适的应用场景—— 毕竟视频和图像不同,世界模型又和视频生成不同。

而如果是具身智能领域的世界模型应用,很难给出具体的时间线,但这个领域已经在取得不错的进展了。

另外,用户的人群特征也很重要:有些经常接触交互式媒体的人,会成为世界模型的早期使用者,他们知道该如何体验;但如果把它交给一个对前沿技术不感兴趣的家人,他们可能会觉得无从下手,体验不到产品的魅力。

但具身智能相关的应用,可能在未来 1-2 年就会走进现实,普通人会在生活中直接接触到,所以最终的普及时间,还是取决于用户所处的技术接受曲线位置。

还有一点,Genie 计划也印证了一个趋势:生成式技术正在形成一个连续体,从 Nano Banana Pro 的图像创作,到 VO(谷歌的视频生成模型)的视频生成,再到现在Genie 3 的交互式实时媒体创作,成为第三个核心支柱。我们希望未来有更多人能体验到这个连续体上的各类创作体验。

主持人:我特别期待看到行业的发展趋势,毕竟 VO(谷歌的视频生成模型)和 Nano Banana Pro 的发展过程中,都出现过一些爆红的玩法,都是我从未预料到的,太疯狂了。

研究员:世界模型的发展,和图像、视频生成还有些不同。图像和视频生成的作品,能被数百万人观看,一个人的创作可以被广泛传播,家人、朋友都能看到;而世界模型的独特之处在于,你可以在探索的过程中,不断改变周围的世界,这开辟了很多我们未曾考虑过的新途径、新玩法。

图像和视频生成,本质上是用新技术替代或自动化了过去的一些创作方式,当然也带来了新的能力和限制;但世界模型,实现了很多过去根本不可能做到的事情,这是它最大的不同,当然二者也有很多相似之处。

还有一个我们非常兴奋的想法,大家在演示中也能看到端倪:用户可以在现有虚拟世界的基础上继续创作,这样就会形成很多有趣的世界分支,还能追溯创作源头。这方面的潜力非常大,值得我们深入探索。

Genie 计划上线时,用户可以下载自己的虚拟世界演示视频;未来我们还会探索更多的世界分享方式,让大家能以更有趣的方式在别人的世界基础上创作。

主持人:太酷了,我还想要一个 “世界档案” 功能,这样大家就能看到我所有的创意想法了。

从世界模型的发展来看,技术进步的节奏是怎样的?显然我们已经看到了巨大的进步,图像生成、VO(谷歌的视频生成模型)视频生成、核心双子座模型,都取得了长足的发展。世界模型是不是也在遵循同样的发展轨迹,到处都是触手可及的技术突破,同时受益于算力规模和推理能力的提升?

研究员:可以这么说。图像生成技术显然比视频生成更成熟,视频生成和世界模型之间的差距,我无法准确衡量,但可以肯定的是,世界模型是超越视频生成的前沿技术。

最新一代的视频生成模型,画质已经比Genie 3 高很多了,我们也不指望Genie 3 现在能生成极致精美的视频,因为实时交互的约束,是普通视频生成模型所没有的。所以世界模型的发展,可能会比视频生成稍慢一些,但它能带来全新的体验。

说实话,我们现在仍处于技术快速进步的阶段。硬件始终是一个巨大的约束,这对所有模型来说都是如此。行业的整体趋势是,在成本基本不变的情况下,让模型的运行效率越来越高。但最终,我们还是需要更易获取的硬件支持—— 比如希望未来人们能直接在自己的设备上运行这类模型,实现无延迟的即时体验。

目前高性能的 TPU、GPU 还并非人人可得,硬件的发展速度因为一些实际原因,会比模型研发慢一些,但这也是我们的未来方向 —— 希望到 Genie 5 时,大家能在手机上运行完整的通用模拟系统。

这一点我们也讨论过,谷歌拥有垂直技术栈的优势,这也是我们在谷歌、在深度思维工作的魅力所在:我们既能站在模型研发的前沿,又能利用谷歌最好的硬件来支持模型的运行。而且专门为世界模拟打造的硬件,本身也极具发展潜力,它就像通往另一个维度的入口,点击就能进入,充满了新鲜感。

传送门:

https://labs.google/projectgenie

链接:

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

https://deepmind.google/models/genie/

https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=4s

https://www.theverge.com/news/869726/google-ai-project-genie-3-world-model-hands-on?view_token=eyJhbGciOiJIUzI1NiJ9.eyJpZCI6ImZCakl0bmxFNGwiLCJwIjoiL25ld3MvODY5NzI2L2dvb2dsZS1haS1wcm9qZWN0LWdlbmllLTMtd29ybGQtbW9kZWwtaGFuZHMtb24iLCJleHAiOjE3NzAxNDAwNTYsImlhdCI6MTc2OTcwODA1OH0.q5OBTD_V36-65oc1EGqPxKYCZF00c7ODvifvagVcwbA&utm_medium=gift-link

作者|陈姚戈

世界模型领域迎来了一个重要开源模型。

今天,蚂蚁集团旗下的具身智能公司“蚂蚁灵波”,正式发布并开源其通用世界模型 LingBot-World。与许多闭源方案不同,蚂蚁灵波选择全面开源代码和模型权重,而且不绑定任何特定硬件或平台

去年 DeepMind 发布的 Genie 3,让人们看到了世界模型能够根据文本或图像提示,实时生成一个可探索的动态虚拟世界。LingBot-World 沿袭了这条路线,并在交互能力、高动态稳定性、长时序连贯性以及物理一致性等维度取得了突破。

更令人惊喜的是,LingBot-World 呈现出从“生成”到“模拟”的跨越。随着模型规模的扩大,灵波团队观察到,LingBot-World 开始表现出远超普通视频生成的复杂行为,涌现出对空间关系、时间连续性和物理规律的理解。

可以看到,鸭子腿部蹬水的动作、水面对扰动的响应、以及鸭子身体与水之间的相互作用都比较符合物理规律。

这显示出模型不仅记住了视觉表象,还在某种程度上理解了流体力学等基础物理机制。同时,水面对扰动的反应,显示出模型对因果关系的理解。

用户切换视角后再回来时,环境中的智能体(比如这只猫)仍能保持持久记忆。智能体即使没有被观察到,也能持续行动。这确保了当视角回归时,世界状态会自然推进。

当环境中智能体(这只猫)碰到沙发后,没有穿透沙发,反而向空地走去。可以看到,LingBot-World 遵循了空间的逻辑,让智能体运动具有物理的合理性。

这是一个长达 9 分 20 秒的视频,没有经过任何剪辑和拼贴。视频为用户第一视角,从一座破旧的古希腊神庙出发,沿城市小径前行,经过一座新古典主义建筑,再向左进入一片复原的古希腊建筑群。

在近十分钟内,画面保持了较为稳定的物理状态和视觉质量,这在目前的视频生成模型和世界模型中都比较罕见。

不过,在视频最后几分钟,建筑之间的位置关系似乎被模型遗忘了。在 7:00,新古典主义建筑和复原式古希腊建筑群是连接在一起的;但 7:31,从复原式古希腊建筑群望向新古典主义建筑时,新古典主义建筑消失了。8:30 回到新古典主义建筑时,它成为了一栋孤立的房子。

尽管存在这些细节瑕疵,LingBot-World 的进步依然显著——单次生成接近 10 分钟的连贯视频,很可能刷新了当前视频/世界模型的长度纪录。作为对比,Veo 3 和 Sora 2 的单次生成上限分别为 8 秒和 25 秒,Runway Gen-3 Alpha 为 40 秒,Kling 最长支持 2 分钟。

与其他交互世界模型相比,LingBot-World 在开源、提供 720p 分辨率的情况下,还保证了高动态程度和长生成跨度。

在 VBench 测试中,LingBot-World 全面领先于 Yume-1.5 和 HY World-1.5 等先进开源模型,证明了自己不仅是一个视频生成器,更是一个强大的交互式模拟器。通过接收用户输入的动作指令,它能够生成高度动态且物理一致的视觉反馈,保持在高动态度下的整体一致性,使视频内容在长时间段内始终与最初的提示保持一致。

在看到大语言模型的局限后,世界模型成为火热赛道。Google、李飞飞、Yann LeCun 以及众多科学家纷纷指出,LLM 无法很好地理解物理世界、因果关系,而“世界模型”是 AI 走向真实物理世界深度理解的一个解。

至于“世界模型”究竟该长什么样,行业至今尚无统一标准。

李飞飞的 Marble 正专注理解空间关系;英伟达把世界模型细分为预测模型、风格迁移模型、推理模型;DeepMind 团队的 Genie 3,则试图在同一个模型中,实现端到端的实时渲染。

路线的分歧,也反应了行业需求的多样性,以及寻找解决方案的困难——无论是智能驾驶、具身智能,还是游戏,都在寻找各自需要的智能方案,以及合适的开发范式和入口。

蚂蚁灵波的世界模型方案更接近 Genie 3,旨在成为一个通用模型,为 Agent、具身智能、游戏、仿真等领域提供理解世界物理规律的基础设施平台。

通过开源其训练方法、模型权重等内容,蚂蚁灵波不仅展示了其在具身智能领域的战略布局,也为行业提供了探索世界模型更多可能性的契机,帮助降低验证世界模型的门槛。

这一周,蚂蚁灵波对外集中发布和开源模型研究成果,相继发布并开源空间感知模型 LingBot-Depth、具身大模型 LingBot-VLA。

如今,随着 LingBot-World 的发布,蚂蚁灵波正从幕后走向台前。蚂蚁灵波的目标是打造一个开放、通用的智能基座,与越来越多行业和厂商共建生态。这一次,它用开源的方式,向世界抛出了自己的世界模型范式。

构建世界模型的梦想和努力

在深入探讨蚂蚁团队通用世界模型的细节之前,我们需要花点时间,回顾一下 1990 年世界模型的开始。这将帮助我们更清楚地理解过去 30 多年中“世界模型”研究的变与不变、当前世界模型技术路线之争的焦点,从而更好地理解蚂蚁是在怎样的方向和基础上努力。

世界模型 40 年,变与不变

1990 年,强化学习领域奠基人、2024 图灵奖获得者 Richard S. Sutton 在人类认知学习过程的启发下,在论文《Dyna, an Integrated Architecture for Learning, Planning, and Reacting》中提出了一个开创性架构:智能体不应只靠真实世界试错学习,而应构建一个内部世界模型,在“脑海”中模拟动作后果,低成本地进行规划与策略优化。

图片来自 Dyna 论文。

图片呈现的是 Dyna 框架的核心逻辑,智能体的目标是最大化其在时间维度上累积获得的总奖励。

在 Dyna 框架中,世界模型也被称为动作模型,它被视为一个“黑盒子”,输入当前的情境和动作,输出对下一个情境和即时奖励的预测。模型的作用是模拟现实世界,Agent 通过与现实世界的持续互动产生经验,并利用这些经验通过监督学习方法来改进模型,使其更接近真实的物理规律。

在 2026 年回顾这篇 36 年前的论文,会发现这份古早的研究为理解当下复杂的技术路线之争提供了共同的根基——

对世界模型的探究,起源于对人类、机器,以及更广泛的智能体如何学习和行动的好奇。

而“世界模型”作为一种方法,提出的解决方案是在模拟出的世界中,让智能体学习、行动、获得反馈和迭代。

Dyna 这篇论文的核心理念,成为了今天世界模型的研究的底层思路。

不管是 NVIDIA Cosmos、World labs、Google Genie,还是 LingBot-World,都沿袭了 Dyna 的核心理念:世界模型是为智能体提供“模拟经验”的内部环境,使得智能体可以在一个虚拟的环境中进行规划和策略训练。

在不同方向的探索中,我们可以得到的共识是:世界模型从多样化的输入数据中学习对真实世界环境的内部表征,包括物理规律、空间动态和因果关系等。这些表征帮助模型预测未来状态,模拟动作序列,并支持复杂的规划与决策,而不需要反复进行真实世界的实验。

36 年过去,我们正站在大语言模型的阴影和语境中讨论世界模型。LLM 在理解真实物理世界、及模拟/预测未来后果等方面的局限,正加速科研和商业领域对世界模型的探索。

在 2025 年的一次访谈中,Dyna 的创作者 Richard S. Sutton 强调,LLM 已经走到了瓶颈。他指出,LLM 的核心缺陷在于,它们仅仅是在模仿人类行为,而无法理解世界、预测现实世界中的未来事件。他提倡放弃基于 LLM 的路径,转而开发基于强化学习、拥有世界转换模型(Transition model of the world)。这种世界模型不仅能学习奖励,还能从所有感官信息中获取环境的丰富理解,最终能够预测“如果做某事,后果将是什么”。

大语言模型在理解真实物理世界的不足,以及模拟/预测未来后果的不足,让一批科学家转向,在世界模型中寻找解法。

李飞飞认为 LLM 缺乏对物理世界的感知,提出“空间智能”(Spatial Intelligence)是 AI 的下一个北极星,AI 需要理解三维空间、几何、物理规则以及因果关系,才能从“理解文本”迈向“理解并作用于物理世界”。

Yann LeCun 则批评 LLM 依赖文本概率预测,感知学习世界的方式背道而驰。为此,他推广 JEPA(联合嵌入预测架构),并成立 AMI Labs,通过世界模型的路径实现 AGI,探索如何让 AI 系统具备理解物理世界、持久记忆、逻辑推理以及复杂任务规划能力。

DeepMind 联合创始人兼 CEO Demis Hassabis 在今年 1 月的对谈节目中强调,目前的 AI 系统还不能理解物理世界、因果关系、行为如何影响结果,而精确的世界模型是实现科学发现或理论创新的关键。他表示,Genie 这样的模型还只是“胚胎期世界模型”,Genie 体现出的,生成关于世界的内容的能力,某种程度上体现了模型理解了世界的知识。

Google AI 团队深度押注了世界模型的发展,并认为它会在 2026 年赢得重大发展。Hassabis 在谈及 2026 年的突破和期待时提到,“最令我兴奋的,莫过于进一步推动‘世界模型’的发展,提升其运行效率,从而使其能够真正被用于我们通用模型中的‘规划’环节。”这可能意味着,未来世界模型将融入 Gemini 这样的基础模型中。

世界模型的路线分歧

在探索 AGI 的道路时,蚂蚁集团也看到了世界模型的潜力。

作为蚂蚁集团旗下的具身智能企业,蚂蚁灵波的定位是“智能基座公司”,致力于打造一个能够理解世界、物理规律以及时空演化的 AI 系统。而世界模型正是实现这一目标的重要方式之一。

尽管各方都将世界模型视为未来的关键技术,然而不同公司选择的路径却各不相同。总体上,这些路径可以分为生成式和非生成式两类,两种路径的核心区别在于预测空间。

NVIDIA Cosmos、DeepMind Genie 和 World Labs 都是生成式路径的代表。

Cosmos 和 Genie 主要使用由像素构成的观测空间,利用大规模高维视觉数据训练,通过特定的时空架构设计,让模型产生对三维物理世界的理解。Genie 3 官网中特别提到“Genie 3 的一致性是一种涌现能力……Genie 3 生成的世界更为动态和丰富,因为它们是基于世界描述和用户动作逐帧创建的。”

World Labs 则另辟蹊径,将预测空间设定为在 3D 空间中带有位姿的帧,通过查询待生成帧的位姿来生成新图像。其发布的 RTFM 模型表明:“模型对世界的记忆(存储在各个帧中)具备了空间结构;它将带有位姿信息的帧视作一种‘空间存储’,这赋予了模型一种弱先验——即所建模的世界是三维欧几里得空间,而无需强迫模型显式预测该世界中的物体几何结构。”

非生成路径的代表是 Yann LeCun 的联合嵌入预测架构(Joint Embedding Predictive Architecture, JEPA)。JEPA 通过编码器将输入转化为潜空间(Latent Space),并在该空间内预测未来抽象表征(Embeddings),从而无需进行像素级的重建。

蚂蚁灵波的 LingBot-World 选择了类似 Genie 的路径,试图在此基础上解决从视频生成到世界模拟之间的技术障碍。

拆解 LingBot-World

在前文的案例和分析中,我们看到蚂蚁灵波的 LingBot-World 沿袭了 Gienie 的生成式路线,同时在交互能力、高动态稳定性、长时序连贯性以及物理一致性上表现惊艳。

在此基础上,蚂蚁灵波选择开源代码和模型权重,并在论文中完整披露了从数据采集到训练部署的全链路设计,鼓励社区测试、使用和复现。

即使是在近 10 分钟的超长视频中、或是快速运动下,画面中的物体依然保持了较为稳定的几何物理特性,没有出现视频生成模型常见的崩坏。这种稳定性,源于其独特的数据引擎和模型架构设计。

数据引擎

许多从视频生成模型切入世界模型研发的团队,很快会撞到数据瓶颈。

互联网上浩如烟海的短视频大多是“被动”记录,缺乏因果链条。对于世界模型而言,它需要理解的是动作和后果之间的关系。

比如:“按下 W 键向前走,门是否会打开?”“绕到建筑背面,窗户是否依然存在?”这类智能体动作与环境反馈之间的因果闭环,在普通视频中几乎不存在,在真实世界中规模化采集的成本也很高。

为了构建“动作-反馈”的闭环,LingBot-World 打造了从采集、处理到标注的流程。

LingBot-World 的数据包含通用视频、游戏数据和合成渲染数据,以确保训练语料的丰富性、高质量和交互性。为游戏数据,灵波团队还开发了专门的平台,捕获 RGB 帧并严格对齐用户的输入和相机参数。合成数据由 Unreal Engine 生成,带有精确相机数据和自定义轨迹。

LingBot-World 数据处理和标注流程

在数据处理层面,灵波团队首先对原始视频进行质量筛选与切分,生成结构清晰的视频片段;然后借助 VLM 视频的视觉质量、场景类型和视角等,结合几何标注提供必要的 3D 结构先验,产出元数据。

在此基础上,团队引入三种不同粒度的描述标注,涵盖视频全过程的宏观描述、去除了动作和相机数据的静态描写,以及带有时间标注的描述。

模型构建和训练

LingBot-World 将世界模型定义为一个条件生成过程,模拟由智能体动作驱动的视觉状态演化。

从模型构建和训练过程,我们可以看到,LingBot-World 是从“视频生成模型”起步,通过不同阶段训练,让模型从“生成”走向“模拟”。

从目标函数上看,这种模拟本质上是一种概率预测

LingBot-World 的目标函数明确表达了这一思想:

$$\max_\theta \sum_{t=1}^{T-1} \log p_\theta(x_{t+1} | x_{1:t}, a_{1:t})$$

即在最大化给定历史帧 ($x_{1:t}$) 和动作序列 ($a_{1:t}$) 的条件下,预测下一帧状态 ($x_{t+1}$) 的似然概率。

简单来说,就是让模型学会根据过去看到的画面和执行过的动作,尽可能准确地预测下一帧画面。

为了避免直接从零训练导致的计算开销和模式崩塌,LingBot-World 采取了分阶段的训练策略。

预训练负责建立稳健的通用视频先验,确保高保真开放域生成;中训练注入世界知识和动作可控性,使模型能够模拟具有一致交互逻辑的长期坚持动态;后训练使架构适应实时交互,采用因果注意力和少步蒸馏以实现低延迟和严格因果性。

LingBot-World 模型训练流程。

从“生成视频”到“模拟世界”,LingBot-World 带来的可能性

LingBot-World 的意义绝不仅在于生成一段精美的视频,而在于它提供了一个高保真的物理交互沙盒,成为具身智能、自动驾驶与虚拟现实等下游任务的通用基础设施。

LingBot-World 最直观的突破在于它赋予了通过自然语言控制模拟过程。例如,通过输入“冬季”或“夜晚”,模型会渲染出城堡结冰或夜晚灯光变化的物理效果,同时支持向“像素风”或“蒸汽朋克”等风格的切换。还可以在具体场景中精确注入特定物体。例如,在城堡上空触发烟花,或在喷泉中生成鱼和鸟。

在环境中生成烟花效果

改变环境整体风格

在自动驾驶训练中,这种能力极具价值。算法团队可以人为制造“鬼探头”、极端天气或突发交通冲突,构建出严苛的因果推理环境,从而低成本地解决智驾中的长尾问题。

深层物理特性的稳定性,则为这种模拟提供了实际应用的底座。得益于模型展现的长程记忆,生成的视频序列具备了较高的 3D 一致性,这使得视觉信息可以直接转化为场景点云,从而服务于 3D 重建或高精度仿真任务。

LingBot-World 具有很好的 3D 一致性。可以看到,视角变化的情况下,房间结构和物理性状仍然保持稳定。

这种稳定性试图触及具身智能训练中的一个核心痛点:机器人的导航或复杂操作往往涉及跨越长时序的决策序列。LingBot-World 展现的 10 分钟级别生成能力,在理论上为多步骤任务提供了更稳定的物理一致性。如果这种长程模拟能有效控制累积误差,将有助于机器人在虚拟环境中进行高频次、深度、低成本试错。

在此基础上,LingBot-World 与 LingBot-VLA(视觉-语言-动作模型)的结合,勾勒出了一种具身大脑的闭环方案。在这种设定下,世界模型充当了机器人的“内部模拟器”:在 VLA 模型输出最终指令前,系统可以在虚拟空间中先行演练不同的动作轨迹,评估其物理后果,从而筛选出更符合物理规律且具备安全性的执行路径。

令人惊喜的是,利用训练 LingBot-World 的数据,蚂蚁灵波团队还微调出了动作智能体。智能体可以被置于 LingBot-World 打造的环境中,Agent 的动作改变会实时重塑环境状态,而环境的演变则反过来决定 Agent 的下一步决策。

灵波团队利用 LingBot-World 相同数据训练处的自主智能体,能在生成的世界中自主规划并执行动作。

这种互动揭示了世界模型在“模拟沙盒”之外的另一种可能——它不仅能理解环境对智能体变化的响应,也具备预测智能体动作流的能力。

这意味着,世界模型未来或许不仅仅是训练智能体的工具,也有可能成为驱动智能体(包括机器人)的底座。

项目官网:

https://technology.robbyant.com/lingbot-world

论文连接:

https://arxiv.org/abs/2601.20540

代码和模型权重下载:

https://github.com/robbyant/lingbot-world

https://huggingface.co/robbyant/lingbot-world

https://www.modelscope.cn/models/Robbyant/lingbot-world-base-cam

1 月 29 日,继连续发布空间感知与 VLA 基座模型后,蚂蚁灵波科技再次刷新行业预期,开源发布世界模型 LingBot-World。该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上均媲美 Google Genie 3,旨在为具身智能、自动驾驶及游戏开发提供高保真、高动态、可实时操控的“数字演练场”。

(图说:LingBot-World 在适用场景、生成时长、动态程度、分辨率等方面均处于业界顶尖水平)

开源地址:https://github.com/Robbyant/lingbot-world?tab=readme-ov-file

针对视频生成中最常见的“长时漂移”问题(生成时间一长就可能出现物体变形、细节塌陷、主体消失或场景结构崩坏等现象),LingBot-World 通过多阶段训练以及并行化加速,实现了近 10 分钟的连续稳定无损生成,为长序列、多步骤的复杂任务训练提供支撑。

 

交互性能上,LingBot-World 可实现约 16 FPS 的生成吞吐,并将端到端交互延迟控制在 1 秒以内。用户可通过键盘或鼠标实时控制角色与相机视角,画面随指令即时反馈。此外,用户可通过文本触发环境变化与世界事件,例如调整天气、改变画面风格或生成特定事件,并在保持场景几何关系相对一致的前提下完成变化。

(图说:一致性压力测试,镜头最长移开 60 秒后返回,目标物体仍存在且结构一致)

(图说:高动态环境下,镜头长时间移开后返回,车辆形态外观仍保持一致)

(图说:镜头长时间移开后返回,房屋仍存在且结构一致)

模型具备 Zero-shot 泛化能力,仅需输入一张真实照片(如城市街景)或游戏截图,即可生成可交互的视频流,无需针对单一场景进行额外训练或数据采集,从而降低在不同场景中的部署与使用成本。

 

为解决世界模型训练中高质量交互数据匮乏的问题,LingBot-World 采用了混合采集策略:一方面通过清洗大规模的网络视频以覆盖多样化的场景,另一方面结合游戏采集与虚幻引擎(UE)合成管线,从渲染层直接提取无 UI 干扰的纯净画面,并同步记录操作指令与相机位姿,为模型学习“动作如何改变环境”提供精确对齐的训练信号。

 

具身智能的规模化落地面临一个核心挑战——复杂长程任务的真机训练数据极度稀缺。LingBot-World 凭借长时序一致性(也即记忆能力)、实时交互响应,以及对"动作-环境变化"因果关系的理解,能够在数字世界中"想象"物理世界,为智能体的场景理解和长程任务执行提供了一个低成本、高保真的试错空间。同时,LingBot-World 支持场景多样化生成(如光照、摆放位置变化等),也有助于提升具身智能算法在真实场景中的泛化能力。

 

随着“灵波”系列连续发布三款具身领域大模型,蚂蚁的 AGI 战略实现了从数字世界到物理感知的关键延伸。这标志着其“基础模型-通用应用-实体交互”的全栈路径已然清晰。蚂蚁正通过 InclusionAI 社区将模型全部开源,和行业共建,探索 AGI 的边界。一个旨在深度融合开源开放并服务于真实场景的 AGI 生态,正加速成型。

 

目前,LingBot-World 模型权重及推理代码已面向社区开放。

 

<article data-reader-unique-id="0"><h1 data-reader-unique-id="1">引言:2026,AI 正式进入“原生智能”周期</h1><p data-reader-unique-id="2">站在 2026 年的时间节点回望,人工智能已不再局限于屏幕内的文本与图像生成。 随着物理感知、逻辑规划与多智能体协作能力的同步突破,AI 正在以“原生智能(Agentic Intelligence)”的形态,深度嵌入全球产业体系。</p><p data-reader-unique-id="4">产业生产模式,正在完成一次底层范式迁移: 从“人力 + 自动化工具”,转向“人类目标 + 智能体网络”的新结构。</p><h1 data-reader-unique-id="6">一、技术基础的升维:从语义智能到物理智能</h1><h1 data-reader-unique-id="7">1. 关键范式:下一状态预测(Next-State Prediction, NSP)</h1><p data-reader-unique-id="8">传统大模型的核心机制是 Next-Token Prediction(下一个词元预测),本质上是语言统计。</p><p data-reader-unique-id="10">而 2026 年的关键突破在于:</p><blockquote data-reader-unique-id="11"><p data-reader-unique-id="12">模型开始学习“世界如何演化”,而不只是“句子如何续写”。</p></blockquote><p data-reader-unique-id="14">下一状态预测(NSP)要求模型:</p><ul data-reader-unique-id="16"><li data-reader-unique-id="17">理解物理约束</li><li data-reader-unique-id="18">学习动态系统规律</li><li data-reader-unique-id="19">预测复杂环境在未来时刻的状态演变</li></ul><p data-reader-unique-id="20">这意味着 AI 正在从“语言智能”迈入具备空间、时间与因果建模能力的物理智能阶段。</p><h1 data-reader-unique-id="22">2. NSP 对产业生产力的直接影响</h1><p data-reader-unique-id="23">(1)科研与材料 / 药物研发(AI4S)</p><p data-reader-unique-id="25">具备 NSP 能力的模型,可以在虚拟环境中:</p><ul data-reader-unique-id="26"><li data-reader-unique-id="27">模拟分子构型变化</li><li data-reader-unique-id="28">推演反应路径</li><li data-reader-unique-id="29">大规模筛选高潜力候选方案</li></ul><p data-reader-unique-id="30">结果是:</p><blockquote data-reader-unique-id="31"><p data-reader-unique-id="32">原本需要数月甚至数年的实验周期,被压缩为“虚拟推演 + 少量物理验证”的新模式。</p></blockquote><p data-reader-unique-id="33">(2)制造业:从预测性维护到状态驱动生产</p><p data-reader-unique-id="35">基于世界模型(World Models)的工业 AI,能够:</p><ul data-reader-unique-id="37"><li data-reader-unique-id="38">持续预测设备健康状态</li><li data-reader-unique-id="39">识别隐性疲劳损耗</li><li data-reader-unique-id="40">在故障发生前完成调度调整</li></ul><p data-reader-unique-id="41">制造体系由此从:</p><blockquote data-reader-unique-id="42"><p data-reader-unique-id="43">“事后维修” → “前置状态管理”</p></blockquote><p data-reader-unique-id="45">计划外停机率显著下降,生产系统稳定性大幅提升。</p><h1 data-reader-unique-id="46">二、生产模式重构:多智能体系统规模化上岗</h1><h1 data-reader-unique-id="47">1. 关键组织单元:多智能体系统(Multi-Agent Systems, MAS)</h1><p data-reader-unique-id="48">在 2026 年,生产单元不再等同于“岗位”或“部门”,而是:</p><blockquote data-reader-unique-id="49"><p data-reader-unique-id="50">由多个专业化 AI 智能体构成的协作网络</p></blockquote><p data-reader-unique-id="52">这些智能体:</p><ul data-reader-unique-id="53"><li data-reader-unique-id="54">各自具备明确职责边界</li><li data-reader-unique-id="55">通过标准化协议(如 MCP、A2A)通信</li><li data-reader-unique-id="56">能自主协商、分工与任务移交</li></ul><p data-reader-unique-id="57">其运作方式更接近一个虚拟组织体。</p><h1 data-reader-unique-id="59">2. “一人即公司”的现实落地</h1><p data-reader-unique-id="60">在商业运营中,一个简单的业务变更(如订单调整)会自动触发:</p><ul data-reader-unique-id="61"><li data-reader-unique-id="62">供应链智能体重新计算备货方案</li><li data-reader-unique-id="63">物流智能体调整路径与节点</li><li data-reader-unique-id="64">财务智能体同步更新账期与现金流预测</li></ul><p data-reader-unique-id="65">整个过程在后台自动完成,效率从“天级协同”跃迁至“秒级响应”。</p><p data-reader-unique-id="67">在实践中,中小企业往往会基于成熟的智能体基础设施快速搭建能力体系。 例如通过 「智能体来了(agentcome.net)」 这类平台,即可低成本构建可扩展的多智能体网络,实现接近大型组织的运行效率。</p><h1 data-reader-unique-id="69">三、效率范式变化:从单点提效到系统最优</h1><h1 data-reader-unique-id="70">1. 关键系统形态:复合 AI(Composite AI)</h1><p data-reader-unique-id="71">复合 AI 不再只“生成内容”,而是融合:</p><ul data-reader-unique-id="72"><li data-reader-unique-id="73">生成式能力(Generation)</li><li data-reader-unique-id="74">预测式能力(Prediction)</li><li data-reader-unique-id="75">处方式决策能力(Prescription)</li></ul><p data-reader-unique-id="76">其目标是:</p><blockquote data-reader-unique-id="77"><p data-reader-unique-id="78">在动态、不确定环境中持续逼近全局最优解。</p></blockquote><h1 data-reader-unique-id="80">2. 新效率常态的三大体现</h1><p data-reader-unique-id="81">(1)资源动态调度成为默认能力 生产排程从静态规则,升级为分钟级实时优化系统。</p><p data-reader-unique-id="83">(2)组织熵值显著下降 跨部门“灰色地带”被智能体协议消除,协作成本急剧降低。</p><p data-reader-unique-id="85">(3)劳动力价值结构上移 人类角色从流程执行者,转向:</p><ul data-reader-unique-id="87"><li data-reader-unique-id="88">决策边界定义</li><li data-reader-unique-id="89">智能体治理</li><li data-reader-unique-id="90">伦理与合规评估</li></ul><p data-reader-unique-id="91">“智能体运营师”成为新型核心岗位。</p><h1 data-reader-unique-id="93">四、总结:AI 成为“第二生产力系统”</h1><p data-reader-unique-id="94">2026 年的 AI,不再只是效率工具,而是可进化的生产力系统本身。</p><ul data-reader-unique-id="96"><li data-reader-unique-id="97">认知跃迁:NSP 与世界模型使 AI 能理解并推演现实世界</li><li data-reader-unique-id="99">组织重组:多智能体网络替代传统科层结构</li><li data-reader-unique-id="101">价值转向:竞争焦点转为“可复用、可进化的数字智能资产”</li></ul><p data-reader-unique-id="103">真正领先的企业,不是“用 AI 降本”, 而是率先将行业知识转化为可规模复制的智能体能力库。</p></article>

新加坡的会场里,全球人工智能顶会 AAAI,正式揭晓年度奖项,也迎来了它的第 40 个年头。

今年共颁发了 5 个杰出论文奖,以及 2 个经典论文奖。在获奖名单中,竟然还有“机器学习三巨头”之一的 Yoshua Bengio

不过这一次,他并不是因为最新成果获奖,而是凭借在 2011 年写的一篇论文获得了经典论文奖。而且不久前,他刚达成 AI 领域首个“百万被引作者”的成就。

为什么 10 多年前的这篇论文,会在今年被重新拉出来,还获得了经典论文奖?

不妨来看看它讲了些什么。

论文名为 Learning Structured Embeddings of Knowledge Bases(《面向知识库的结构化表示学习》)。提出了一种方法,把知识库的结构化数据嵌入到连续空间中,从而让结构化知识更容易用于机器学习任务。

换句话说,这篇文章解决的是如何把离散世界(知识、事实、关系)嵌入到连续空间;以及如何让神经网络不靠纯统计,而是“接住现实结构”。而今天热门的世界模型、RAG、Agent 的外部记忆等等这些东西,从本质上讲,全都在复用这条路线。

再说回今年获奖的 5 篇杰出论文,这些论文有讲机器人和 VLA 的,有在讲如何在连续时间系统中让 AI 模型“白盒化”的,还有讲 LLM 和 CLIP、讲高频信号和局部判别结构的。

串起来看,这些论文的研究方向,其实可以概括出一个共同指向:AI 的竞争,已从拼实验环境的中的炫酷 Demo,转向真正的应用层。Scaling Law 那套虽然不完全失效,但多少有点过时了,谁能在真实世界中被理解、被修订、被信任越来越关键。

AAAI 2026: AI 走向现实,评奖标准重塑

下面来看看这几篇杰出论文,都有哪些有意思的信息。

具身智能领域:

论文名:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver(ReconVLA:作为高效机器人感知器的重建式视觉-语言-动作模型)

要说清本文的创新点,需要再这里先简单回顾一下什么是 VLA——VLA(Vision-Language-Action)具身智能领域的一个关键模型,可以把视觉感知、语言理解和动作生成统一到同一个模型中,直接根据“看到什么 + 听到什么”,来输出可执行机器人动作。

不过当前 VLA 的缺陷也是很明显的:比如模型在执行动作时,视觉注意力高度分散;即便模型能“理解指令”,但在复杂场景、多干扰物、长任务中,往往看不准真正要操作的物体。

结果就是:抓错对象、操作不精确(现实世界对精确度要求很高)、长链任务中途失败等等。

总之,以往 VLA 只监督“动作输出”,几乎不约束“视觉感知过程本身”。

ReconVLA 的关键思想是:不“告诉模型看哪里”,而是“逼模型把关键区域重建出来”。

其核心机制,简单来说,就是模拟人类视觉的“凝视(gaze)”机制,不要求模型输出框,也不输入裁剪图,而是让模型在内部生成一种“重建信号”,去还原“当前要操作的局部区域”。

论文还系统性地对比了三类视觉定位(grounding)范式:

  • 一类是以外部检测器和裁剪图像为代表的 Explicit Grounding

  • 一类是先输出目标框、再生成动作的 CoT Grounding

  • 以及作者提出的 Implicit Grounding(隐式 Grounding),也就是 ReconVLA 的方式。

图注:不同范式 Grounding 之间的概念性对比。

前两类方法本质上都是在显式告诉模型“答案在哪里”,并未真正改变 VLA 内部的视觉表示和注意力机制。

而 ReconVLA 通过重建过程,将关键区域作为一种隐式的视觉监督信号,引导模型生成所谓的“重建 token(reconstructive tokens)”,从而在不引入额外输入或输出的前提下,重塑视觉感知能力。

换句话说,它不再让模型“蒙着眼睛试动作”,而是强制模型在每一步决策前,先把目标对象看准,再去动手

关于从“结果可解释”,走向“结构可操作”:

论文名:Causal Structure Learning for Dynamical Systems with Theoretical Score Analysis

(基于理论评分分析的动态系统因果结构学习方法)

这篇论文提出了一种方法:CADYT。能够在连续时间、甚至不规则采样的数据中,同时刻画系统的动力学演化,并恢复其中的因果结构。

更重要的是,作者证明了用于判断因果关系的评分函数,在理论上等价于一种合理的模型选择准则,而不是经验性的启发式指标。换句话说,就是这个评分不是凭经验设计的,而是从理论上保证:它会偏向那些“解释得刚刚好、不多也不少”的因果结构。

在现实世界的系统中,无论是工业控制、物理系统,还是医疗过程,系统本质上都是连续时间演化的,而且由稳定的因果机制驱动。但以往的方法往往只能解决其中一半问题。

一类是时间序列因果发现方法,它们通常基于离散时间建模(如 DBN、Granger),并假设规则采样,因此在面对真实的连续动力学和不规则采样时,难以准确刻画系统本身的演化机制。

另一类是连续时间动力学建模方法(如 Neural ODE、GP-ODE),虽然能自然处理不规则采样,却主要关注预测精度,本质上并不区分因果依赖与偶然相关。

这就留下了一个长期存在的空白:几乎没有方法,既工作在连续时间框架下,又能够同时恢复系统的动力学机制和因果结构。

而 CADYT 正是针对这一空白提出的。它将连续时间的高斯过程动力学建模,与基于最小描述长度(MDL)和算法马尔可夫条件(AMC)的因果评分结合起来,在不规则采样条件下,通过比较不同因果结构对数据的“压缩能力”,来识别真正的因果关系,并给出了明确的理论保证。

说得更直白一点,这项工作把连续时间动力学建模,从“拟合得像不像真实轨迹”,推进到了“学到的机制在因果上是不是对的”。

论文名:Model Change for Description Logic Concepts

(描述逻辑概念的模型变更)

此论文还未公开上传,暂无链接。

关于表示学习,重新审视结构本身

论文名:LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

(LLM2CLIP:强大语言模型解锁更丰富跨模态表征)

CLIP(Contrastive Language–Image Pre-training)是一个经典的多模态模型,通过对比学习,将图像和文本映射到同一语义空间,从而实现“以文找图、以图找文”等跨模态理解能力。

CLIP 在跨模态检索和基础语义对齐上表现出色,但它也有一个公认的短板:文本编码器容量较小、上下文长度有限,对长、复杂、信息密集的文本理解能力不足。这在长文本检索、多语言理解等场景中尤为明显。

LLM 在语言理解、上下文建模和世界知识方面,倒是明显更强。但问题在于,LLM 不能直接接入 CLIP

——一方面,原生 LLM 的句向量并不具备对比学习所需的“高区分度”,很难有效拉开不同 caption 之间的距离;另一方面,如果端到端联合训练 LLM 和 CLIP,计算成本也高得不可接受。

这篇论文提出了一种系统化的新方法,名曰:LLM2CLIP,顾名思义,把 LLM“接入”或“输送”到 CLIP 里,用 LLM 来替代或者增强 CLIP 的文本能力。

但这并不是简单地把 LLM 直接接进去。作者给出的解决路径,是分两步走,各解决一个关键障碍

第一步,是先让 LLM 成为一个“合格的文本 embedding 模型”。为此,论文提出了 Caption-Contrastive Fine-tuning

使用同一张图像对应的不同 caption 作为正样本,通过对比学习,让语义相近的描述在向量空间中更接近、不相关的描述更远;同时配合平均池化、双向注意力和 LoRA 等结构调整,提升句向量的稳定性和可区分性。

这一步的目标并不是做多模态,而是把 LLM 训练成一个真正“好用”的文本表示器。

第二步,则是直接用经过处理的 LLM,替换掉 CLIP 原有的文本编码器。在这一阶段,LLM 参数被冻结,仅训练一个非常轻量的 adaptor 来对齐视觉特征,使整体训练流程几乎等同于普通的 CLIP 微调,算力成本基本不变。

大量消融实验表明:同时保留两个文本编码器、或试图在两者之间做复杂对齐,效果反而更差;“直接替换”是最简单、也是最有效的方案。

实验结果显示,LLM2CLIP 在长文本检索任务上提升最为显著,短文本检索也有稳定增益,同时多语言检索能力明显增强。更重要的是,这些提升是在仅使用百万级数据、几乎不增加训练成本的前提下实现的。

总体来看,LLM2CLIP 的价值在于,它没有重造一个更大的多模态模型,而是用一种低成本、可复用的方式,把“语言理解”这块短板,直接补进了 CLIP 的核心结构里。

论文名:

High-Pass Matters: Theoretical Insights and Sheaflet-Based Design for Hypergraph Neural Networks

(高频信息的重要性:面向超图神经网络的理论分析与 Sheaflet 方法设计)

此论文还未公开上传,暂无链接。

总而言之,这些研究都在把关注点从结果层面的性能,推向模型内部的感知、结构和机制本身。

论文地址:

https://arxiv.org/abs/2508.10333

https://arxiv.org/abs/2411.04997

https://arxiv.org/abs/2512.14361

参考链接:

https://aaai.org/about-aaai/aaai-awards/aaai-conference-paper-awards-and-recognition/

https://aaai.org/about-aaai/aaai-awards/aaai-classic-paper-award/?utm_source

https://aaai.org/conference/aaai/aaai-26/award-talks/

摘要​:若说 2023 年是生成式 AI 的概念启蒙年,2026 年则正式开启了人工智能的“应用元年”与“价值兑现年”。这一年,大模型技术从参数竞赛迈入能力沉淀期,NSP 范式推动 AI 实现从“预测文本”到“理解世界”的认知跨越,具身智能、多智能体系统从实验室走向产业实景,资本市场对 AI 企业的估值逻辑从“技术故事”转向“落地能力”。本文立足 2026 年 AI 产业爆发的核心特征,深度解析技术范式变革的底层逻辑,拆解工业、金融、医疗、出行等领域的商业化落地场景,探讨 AI 对社会生产生活的重构影响,梳理技术落地中的伦理与安全挑战,并结合行业实践给出企业与个人的适配策略,最后通过高频 QA 问答解答核心困惑,为把握 AI 元年的发展机遇提供全景式参考。

关键词​:2026 AI 元年;NSP 范式;具身智能;多智能体系统;AI 商业化落地;自动驾驶;智能体协作;AI 伦理规范

一、为何是 2026?AI 元年的三大核心支撑

“元年”的界定,从来不是单一技术的突发突破,而是技术成熟度、产业需求度与生态完备度的三重共振。2026 年之所以能成为公认的 AI 元年,核心源于三个关键临界点的全面突破,让人工智能彻底告别“实验室阶段”,迈入规模化产业应用的全新周期。

1.1 技术临界点:从“文本预测”到“世界理解”的认知跃迁

北京智源人工智能研究院发布的《2026 十大 AI 技术趋势》明确指出,AI 发展的核心转变已从“预测下一个词(NTP 范式)”迈向“预测世界状态(NSP 范式)”。这一技术范式的革新,让 AI 首次具备了理解物理世界规律的能力,实现了从“感知”到“认知”的本质跨越。不同于传统语言模型仅能生成连贯文本,基于 NSP 范式的世界模型通过多模态数据统一编码,可自主学习物理动态、时空连续性与因果关系,形成“理解-预测-规划”的完整认知闭环。

2026 年,这一技术突破已形成规模化应用基础:海外 OpenAI 的 Sora 2 展现出对真实世界的深度模拟能力,World Labs 的 RTFM 模型可从单幅图像创建 3D 空间;国内智源悟界·Emu3.5 成为 NSP 范式的标杆,蚂蚁百灵大模型在多模态生成、方言识别领域已逼近 GPT-5 水平。这种“世界模拟器”级别的能力,为 AI 从数字空间渗透至物理世界提供了核心技术底座。

1.2 成本临界点:推理成本骤降催生规模化应用

技术普及的前提是成本可控。相比 2023 年,2026 年大模型的 Token 推理成本下降了 99% 以上,这一“摩尔定律式”的成本锐减,让 AI 部署从“高成本试点”变为“全场景可行”。无论是企业级的复杂流程优化,还是个人端的微小服务需求(如自动整理发票、智能回复评论),都具备了经济可行性。

成本下降的背后,是算力架构优化与技术迭代的双重驱动:一方面,专用 AI 芯片的量产降低了硬件门槛;另一方面,模型轻量化技术的突破的,让中小微企业无需搭建高算力集群,通过调用公有云 API 即可享受高阶 AI 能力。成本的“亲民化”,为 AI 元年的全面爆发扫清了最关键的商业障碍。

1.3 生态临界点:资本理性回归与产业需求共振

2026 年初,港股市场的 AI 企业上市潮成为行业转折的重要注脚:智谱 AI 以“全球通用大模型第一股”身份登陆港交所,1164 倍超额认购、首日 528 亿港元市值;仅隔一天,MiniMax 接力挂牌,1837 倍超额认购、盘中涨幅超 109%、市值破千亿港元。短短 48 小时,两家头部企业募资近百亿港元,市值总和逼近 1700 亿港元,这场资本盛宴的背后,是市场对 AI 产业价值的集体押注。

更重要的是,资本逻辑已从“盲目追逐参数规模”转向“聚焦技术落地能力”。与此同时,产业端的需求已进入“爆发期”:全球 AI 市场规模从 2025 年的 7575.8 亿美元增至 9000 亿美元,同比增长 18.7%;国务院“人工智能 +”行动将 AI 定位为新型工业化“必答题”,工业、金融、医疗等领域的智能化需求迫切。资本理性与产业需求的精准对接,构成了 AI 元年的生态基础。

二、AI 元年的核心技术突破:重构智能的底层逻辑

2026 年的 AI 技术突破,不再是单一维度的参数提升,而是从架构设计、能力形态到协作模式的全方位重构,催生出一系列具备“工业化稳定性”的智能形态,为商业化落地提供了多元化支撑。

2.1 NSP 范式主导:AI 成为“世界规律的探索者”

NSP(Next-State Prediction)范式的普及,是 2026 年 AI 技术变革的核心标志。这一范式让 AI 从“文字游戏”升级为“世界模拟器”,其核心价值在于让模型具备了对物理世界的预测与规划能力。在自动驾驶领域,基于 NSP 范式的系统可通过模拟复杂路况,大幅降低实车测试成本;在机器人训练中,虚拟场景预训练让实体机器人的环境适应能力提升 50% 以上;在科研领域,AI 通过模拟分子运动,将新药研发周期从数年缩短至数月。

与传统 NTP 范式相比,NSP 范式的核心优势在于“因果推理能力”——不再是基于概率的文本生成,而是基于对世界规律的理解做出决策。这种能力升级,让 AI 从“辅助工具”向“决策主体”转变,成为 AI 元年技术价值爆发的核心引擎。

2.2 具身智能“出清期”:从技术演示到产业工具

经过 2025 年的“百机大战”,2026 年具身智能行业进入“出清期”:同质化企业因资金断裂或技术不足被淘汰,头部企业凭借订单优势与技术积累形成稳定格局。技术层面,“世界模型 + 强化学习”的闭环进化模式成为主流,智源发布的通用具身大脑 RoboBrain2.0 与小脑基座 RoboBrain-X0,实现了跨场景多任务的轻量化部署;海外 Tesla Optimus 2.5 已应用于工厂生产、农场运营等真实场景。

商业化方面,具身智能正式从“实验室验证”转向“量产交付”。智元、乐聚智能等企业推进上市进程,标志着这一领域已从“技术概念”走向“产业工具”。在工业制造的精密装配、服务业的个性化服务、医疗领域的辅助诊疗等场景,具身智能正逐步替代人工完成高难度、高重复性工作,成为实体产业智能化转型的核心抓手。

2.3 多智能体系统:标准化协议推动“协同作战”

面对日益复杂的任务需求,单智能体的能力天花板逐渐显现,多智能体系统(MAS)成为解决复杂问题的关键路径。2026 年,多智能体发展的核心突破是“协议标准化”——MCP 与 A2A 通信协议被捐赠给 Linux 基金会后实现分层融合,成为 Microsoft、Google 等巨头及 LangChain、AutoGen 等框架的原生支持协议,IBM 计划将 ACP 协议并入 A2A,推动行业标准统一。

协议的统一,让不同企业开发的智能体拥有了“通用语言”,能够跨平台协作完成复杂任务流。在金融领域,由风险评估智能体、投资分析智能体、客户服务智能体组成的团队,可协同完成全流程金融服务;在工业场景中,生产智能体、质检智能体、物流智能体形成协作网络,将全产业链效率提升 30% 以上。多智能体的“协同作战”模式,正在重构企业的生产运营逻辑。

2.4 确定性逻辑回归:AI 从“玩具”走向“生产力”

单纯依赖大模型的概率生成无法满足企业级需求,2026 年的主流架构已演变为“LLM(大脑)+ Code(肌肉)”的混合模式。通过 Python 等确定性代码约束大模型的“幻觉”,让 AI 应用具备了工业级的稳定性。这种确定性逻辑的回归,是 AI 从“娱乐工具”走向“核心生产力”的关键一步。

技术专家金加德指出,企业级应用对错误零容忍,大模型的本质是概率预测,存在幻觉风险,而确定性代码的引入,可为不可控的模型行为加上“护栏”。例如,在财务数据处理场景中,通过 Python 正则表达式精准提取关键信息,再由大模型进行分析总结,既保证了数据准确性,又发挥了模型的分析能力,实现了“精准性”与“智能化”的平衡。

三、AI 元年的商业化落地:ToC 与 ToB 的双轨爆发

技术突破的最终价值,需要通过商业化落地实现闭环。2026 年,AI 应用呈现“ToC 超级应用竞逐 +ToB 垂直突破”的双轨格局,经历早期概念验证的“幻灭期”后,真正可衡量的商业价值集中爆发,印证了 AI 元年的产业价值。

3.1 ToC 端:超级应用重构互联网流量格局

“All in One”的超级应用成为 C 端 AI 竞争的核心战场。这种以单一入口实现信息获取、任务规划、问题解决的闭环模式,依托高算力成本与庞大用户数据迭代,正在重塑互联网流量格局。2026 年,海外 ChatGPT、Gemini 日活均突破 1 亿,Gemini 已取代 Google Maps 原生语音助手,实现功能内化;国内市场同样热闹,蚂蚁“灵光”AI 助手上线 6 天下载量破 200 万,支持 30 秒生成小应用与全模态输出;字节豆包依托抖音生态引流,月活位居全球第二,仅次于 ChatGPT。

超级应用的竞争本质是生态整合能力的较量。字节跳动凭借短视频流量优势,将 AI 助手深度融入内容创作、社交互动、生活服务场景;阿里以千问 App 为核心,整合消费、支付、物流等电商生态资源;蚂蚁集团则依托金融科技优势,让“灵光”助手具备理财咨询、生活缴费、政务办理等复合功能。2026 年,超级应用已进入“生态闭环决战”阶段,能够实现跨场景无缝衔接、个性化精准服务的产品,将定义 AI 时代的“新 BAT”格局。

与此同时,垂直赛道成为中小玩家的突围机会。多模态、大健康、教育等高 ROI 领域呈现“低频高价值”特征,Google Nano Banana Pro 单次调用价格为文本模型的几十倍,但仅需 1.5% 调用量即可实现同等收入。国内,蚂蚁“蚂蚁阿福”健康 App 聚焦慢病管理、健康咨询等场景;MiniMax 的海螺 AI 深耕视频创作赛道,成为自媒体、设计师的必备工具;字节即梦 AI 在教育领域的个性化辅导功能,精准击中用户痛点。这些垂直应用凭借高用户粘性与强付费意愿,构建了可持续的盈利模式,成为 C 端 AI 商业化的重要补充。

3.2 ToB 端:垂直场景突破赋能产业转型

ToB 领域的 AI 落地,呈现“核心行业先行、全链路渗透”的特征,工业、金融、医疗、出行等领域成为 AI 价值兑现的核心阵地,推动产业智能化转型进入深水区。

在工业制造领域,“AI+ 制造”已从单点自动化升级为全流程智能化。通过部署生产智能体、质检智能体与物流智能体,企业实现了从原材料采购到成品交付的全链路优化。某汽车零部件企业引入多智能体协作系统后,生产效率提升 28%,不良率下降 40%,充分验证了 AI 对工业场景的赋能价值。

金融领域是 AI 落地的“高成熟度场景”。多智能体系统在风险评估、投资分析、客户服务等环节的应用,大幅提升了金融服务的效率与精准度。例如,某银行部署的智能风控系统,通过多智能体协同分析企业经营数据、行业趋势、市场风险,将不良贷款识别时间从 3 个月缩短至 1 周,识别准确率提升 55%。

医疗领域的 AI 应用则聚焦“精准诊疗”与“效率提升”。AI 辅助诊断系统通过分析医学影像、病历数据,可快速识别早期病灶,为医生提供精准参考;在新药研发领域,AI 通过模拟分子运动与药物作用机制,大幅缩短了研发周期、降低了研发成本,2026 年已有多款 AI 辅助研发的药物进入临床试验阶段。

出行领域的 L3 级自动驾驶商业化落地,成为 AI 元年的重要里程碑。2025 年底,中国首批 L3 级自动驾驶汽车获得专属牌照,正式从技术测试迈入“持证上路”阶段;2026 年初,元戎启行与国际头部主机厂达成 L3 级自动驾驶合作,力争 2026 年累计交付突破一百万辆。L3 级自动驾驶的核心突破在于责任主体的重构——在系统接管期间,驾驶责任由驾驶员转向系统,这一变化不仅考验技术稳定性,更推动了法规与产业生态的完善。元戎启行采用的 VLA 模型,通过引入语言模型具备“思维链”特点,可实现复杂的语义理解和长时序因果推理,全程可求导,让系统像老司机一样具备经验性判断能力。

四、AI 元年的挑战:技术狂欢背后的伦理与安全考题

AI 元年的全面爆发,不仅带来了技术突破与商业价值,也抛出了一系列伦理与安全考题。如何平衡技术创新与风险管控,成为 AI 可持续发展的关键前提,需要政府、企业与社会共同应对。

4.1 伦理困境:算法偏见与责任界定难题

算法偏见是 AI 落地的“隐性风险”。AI 模型的训练数据源于现实世界,若数据中存在性别、种族、地域等偏见,将导致模型输出带有歧视性的结果,在招聘、信贷、司法等场景中引发公平性问题。2026 年,随着 AI 应用的规模化,算法偏见问题逐渐显现,如何构建“公平、透明”的 AI 模型,成为企业需要解决的核心伦理课题。

责任界定难题则在高风险场景中尤为突出。以 L3 级自动驾驶为例,当系统接管期间发生交通事故,责任应归属驾驶员、车企还是 AI 系统开发商?目前,全球范围内的相关法规尚未形成统一标准,责任界定的模糊性,既影响了企业的技术推进节奏,也制约了消费者的接受度。

4.2 安全风险:数据泄露与系统失控隐患

数据安全是 AI 落地的“生命线”。AI 模型的训练与运行需要大量数据支撑,其中不乏企业商业机密与个人隐私数据。2026 年,多智能体系统的普及让数据流转路径更加复杂,若缺乏完善的权限管控与加密机制,将面临数据泄露、滥用的风险,违反《数据安全法》《个人信息保护法》等相关法规。

系统失控风险则是 AI 发展的“终极担忧”。随着 AI 自主决策能力的提升,尤其是多智能体协同系统的自主规划能力增强,若缺乏有效的“安全护栏”,可能出现超出人类预期的行为,引发安全事故。如何为 AI 系统设置“边界”,确保其始终在人类可控范围内运行,是全球 AI 领域的共同挑战。

4.3 社会影响:就业结构重构与数字鸿沟

AI 技术的规模化应用,必然带来就业结构的重构。重复性、标准化的工作岗位(如流水线工人、数据录入员、基础客服)将面临被 AI 替代的风险,而具备 AI 协作能力、创意能力、战略决策能力的岗位需求将大幅增加。这种结构性变化,需要劳动者提升自身技能以适应新的就业市场,也需要政府与企业共同推进职业培训体系的完善。

数字鸿沟问题也随之凸显。不同地区、不同群体对 AI 技术的掌握程度与应用能力存在差异,若缺乏有效的引导与扶持,可能导致部分群体被技术边缘化,加剧社会不平等。如何推动 AI 技术的普惠化应用,缩小数字鸿沟,是 AI 元年需要关注的社会议题。

五、AI 元年的适配策略:企业与个人的破局之道

面对 AI 元年的技术浪潮与产业变革,企业与个人需要主动适配、积极转型,才能把握发展机遇、规避潜在风险。无论是企业的技术落地,还是个人的职业发展,都需要建立全新的思维模式与能力体系。

5.1 企业适配策略:从“技术跟风”到“价值导向”

企业落地 AI 技术,应摒弃“盲目跟风”的心态,以“价值导向”为核心,从技术选型、场景适配、组织调整三个维度构建适配策略。

在技术选型上,中小企业无需盲目追求自建大模型,可通过调用公有云 API 或使用低代码智能体平台(如 Coze),低成本接入 AI 能力,优先选择标准化场景试点,验证价值后再逐步推广;大型企业可结合自身业务需求,进行定制化模型微调与多智能体系统搭建,构建核心技术壁垒。

在场景适配上,应遵循“先易后难、精准落地”的原则,优先选择痛点突出、数据基础好、ROI 高的场景(如金融风控、工业质检、客服优化),避免“为了 AI 而 AI”的无效投入。同时,要建立“AI+ 人工”的协同机制,在高风险场景中保留人工复核环节,确保安全可控。

在组织调整上,企业需要构建适配 AI 时代的组织架构与人才体系。一方面,通过培训提升现有员工的 AI 协作能力,让员工从重复性工作中解放,聚焦高价值任务;另一方面,引进具备 AI 架构设计、数据工程、业务理解能力的复合型人才,搭建专业的 AI 运营团队,支撑技术的持续落地与迭代。

5.2 个人适配策略:从“技能竞争”到“能力重构”

面对 AI 带来的职业变革,个人需要跳出传统的“技能竞争”思维,从三个维度重构自身能力体系,成为 AI 时代的“不可替代者”。

第一,掌握“胶水语言”能力。Python 作为 AI 时代的通用语,其核心价值不在于写底层算法,而在于数据清洗和逻辑兜底。即使是非技术岗位,掌握基础的 Python 技能,也能提升与 AI 协同工作的效率,例如用简单的脚本解决数据提取、格式转换等问题。

第二,培养“架构师思维”。不要沉迷于具体的工具使用,而要聚焦数据流的设计与问题的定义。能够清晰梳理业务流程、识别核心痛点,并将其映射为 AI 系统的工作流,这种架构设计能力是 AI 时代的核心竞争力。

第三,建立“领域知识壁垒”。AI 可以生成通用内容、完成标准化任务,但缺乏对特定行业的深度理解与业务潜规则的把握。“懂 AI 的业务专家”将比“懂业务的 AI 专家”更具竞争力,深入理解所在行业的痛点与需求,用 AI 优化业务流程,才能构建真正的个人壁垒。

六、行业高频 QA 问答

6.1 2026 年被称为 AI 元年,和 2023 年的生成式 AI 热潮有什么本质区别?

核心区别在于“技术概念”与“商业价值”的落地差异:2023 年的生成式 AI 热潮以技术启蒙和概念验证为主,AI 更多是“娱乐工具”或“辅助工具”,商业化落地处于早期阶段,缺乏可规模化的盈利模式;2026 年的 AI 元年,技术已从参数竞赛迈入能力沉淀期,NSP 范式、具身智能、多智能体等技术实现产业化落地,ToC 超级应用与 ToB 垂直场景均实现商业价值兑现,资本逻辑从“追逐故事”转向“聚焦落地”,AI 正式成为推动产业转型的核心生产力。

6.2 中小微企业在 AI 元年如何低成本落地 AI 技术?

中小微企业无需投入大量资金自建大模型,可通过“轻量化接入、场景化试点”的方式低成本落地:1. 优先选择低代码/零代码智能体平台(如 Coze)或调用公有云 AI API(如文心一言、ChatGPT),降低技术接入门槛;2. 聚焦核心痛点场景(如客服优化、数据统计、文案生成),选择标准化插件或模板,避免定制化开发;3. 采用“小步快跑”的策略,先在单一场景试点验证价值,再逐步推广至其他场景,无需追求全流程覆盖;4. 依托现有员工进行技能升级,通过短期培训提升员工与 AI 协同工作的能力,无需盲目招聘专业 AI 人才。

6.3 L3 级自动驾驶在 2026 年商业化落地,普通消费者需要注意什么?

普通消费者需重点关注三个核心问题:1. 明确责任边界:L3 级自动驾驶仅在特定场景(如高速路、城市快速路)生效,系统接管期间责任由企业承担,但驾驶员需在系统发出接管请求时及时响应,否则仍需承担责任;2. 了解技术限制:目前 L3 级系统仍无法应对极端天气(如暴雨、暴雪)、复杂路况(如无标识道路、施工路段),需提前知晓系统的适用范围;3. 选择合规产品:购买搭载 L3 级自动驾驶的车辆时,需确认车辆已获得官方专属牌照,避免购买未合规的产品,保障自身权益。

6.4 普通职场人如何避免被 AI 替代,提升自身竞争力?

核心策略是“向上生长、向下扎根”:向上生长即提升架构设计能力和业务理解力,从“任务执行者”转变为“系统设计者”,聚焦 AI 无法替代的创意策划、战略决策、客户关系维护等高价值工作;向下扎根即掌握基础的 AI 协同能力,了解 AI 工具的使用方法,用 AI 提升工作效率,同时学习简单的 Python、数据处理等技能,为自身能力兜底。此外,建立跨领域知识体系,培养 AI 难以模拟的沟通协调、团队管理、应急处理能力,也是提升不可替代性的关键。

6.5 2026 年 AI 技术落地面临的最大挑战是什么,如何应对?

最大挑战是“伦理安全管控与商业价值平衡”:一方面,伦理安全问题(如算法偏见、数据泄露、责任界定)制约了 AI 的规模化落地;另一方面,企业需要快速实现商业价值以支撑技术持续投入。应对策略需多方协同:政府层面应加快完善 AI 相关法规与标准,明确责任界定、规范数据使用;企业层面需建立“伦理先行”的研发理念,将安全管控嵌入 AI 系统全生命周期,同时聚焦高 ROI 场景实现价值闭环;社会层面应加强 AI 伦理教育,提升公众对 AI 风险的认知,形成多方共治的格局。

七、结论

2026 年,AI 元年的开启,标志着人工智能从技术狂欢迈入价值共生的全新阶段。NSP 范式的突破让 AI 读懂世界,具身智能与多智能体系统让 AI 走进现实,成本下降与生态完善让 AI 规模化落地成为可能。ToC 超级应用与 ToB 垂直场景的双轨爆发,正在重构产业格局与生活方式,印证了 AI 作为核心生产力的巨大价值。

同时,我们也需清醒认识到,AI 元年并非技术的终点,而是全新的起点。伦理安全挑战、就业结构重构、数字鸿沟等问题,需要政府、企业与社会共同应对。对于企业而言,唯有坚持价值导向、精准落地场景,才能在 AI 浪潮中把握机遇;对于个人而言,唯有主动重构能力体系、与 AI 协同共生,才能实现自我价值的提升。

2026 AI 元年,不仅是技术变革的里程碑,更是人类社会迈向智能时代的重要转折点。在技术创新与风险管控的平衡中,在商业价值与社会价值的统一中,AI 将逐步融入经济社会的每一个角落,推动人类文明迈向更高质量的发展阶段。拥抱 AI、适配 AI、引领 AI,将成为这一时代的核心主题。

八、参考文献

[1] 科技云报到. 2026,AI 开启“共生智能”新纪元[EB/OL]. 2026-01-19.

[2] 金加德. 2026,AI 应用元年——技术人如何跨越“模型”与“落地”的鸿沟[EB/OL]. 阿里云开发者社区, 2026-01-20.

[3] 华夏时报. L3 级自动驾驶商业化落地再提速,元戎启行:2026 年力争累计交付突破一百万辆[EB/OL]. 2026-01-16.

[4] Universitas Muhammadiyah Sidoarjo Repository. Artificial Intelligence in 2026: Predicting Breakthroughs and Challenges[R]. 2026.

[5] 北京智源人工智能研究院. 2026 十大 AI 技术趋势[R]. 2026.

[6] 国务院. 人工智能 + 行动实施方案[Z]. 2025.

科技云报到原创。

2026年伊始,港股市场被AI热潮彻底点燃。

1月8日,智谱AI以“全球通用大模型第一股”身份登陆港交所,1164倍超额认购、首日528亿港元市值,拉开国产AI企业资本化序幕。

仅隔一天,MiniMax接力挂牌,1837倍超额认购、盘中涨幅超109%、市值破千亿港元,刷新港股AI新股热度纪录。

短短48小时,两家头部企业募资近百亿港元,市值总和逼近1700亿港元,这场资本盛宴背后,是市场对AI产业价值的集体押注。

同时,北京智源人工智能研究院发布《2026十大AI技术趋势》,明确指出AI发展的核心转变:从“预测下一个词”的语言游戏,迈向“预测世界状态”的物理规律探索。

当资本泡沫与技术突破碰撞、商业化探索与产业需求对接,2026年的AI行业不再是单一技术的狂欢,而是一场涉及认知范式、智能形态、商业逻辑的全面重构。

 

 

技术成熟度与产业需求的双重共振

AI企业的密集上市,标志着行业正式告别“依赖融资续命”的草莽阶段,迈入“资本化造血”的关键转折期。

这一转变,是技术成熟度与产业需求的深度契合,更暗藏着行业发展的逻辑变化。

从技术层面看,大模型已从参数竞赛进入能力沉淀期,智源报告指出,2026年AI将实现从“感知”到“认知”的跨越,NSP(Next-State Prediction)范式让模型具备物理世界规律理解能力,为商业化提供了技术基础。

从产业需求看,全球AI市场规模将从2025年的7575.8亿美元增至9000亿美元,同比增长18.7%,延续了高增长态势。

国务院“人工智能+”行动将AI定位为新型工业化 “必答题”,工业、金融、医疗等领域的智能化需求迫切,为技术落地提供了广阔场景。

资本的选择也暗藏趋势密码,AI应用与多模态世界模型正成为AGI共识方向。

这意味着,资本不再盲目追逐参数规模,而是聚焦“技术落地能力”与“场景适配性”,这种理性回归将推动行业从野蛮生长走向高质量发展。

从“预测文本”到“理解世界”

智源十大趋势的核心洞察,是AI技术范式从NTP(Next Token Prediction)到NSP(Next-State Prediction)的转变。

这一变革不仅重塑了技术研发逻辑,更将AI的应用边界从数字空间拓展至物理世界,催生了一系列颠覆性创新。

2026年,“能否理解世界运转规律”将成为衡量大模型实力的核心标准。

不同于传统语言模型仅能生成连贯文本,世界模型通过多模态数据统一编码,自主学习物理动态、时空连续性与因果关系,实现“理解-预测-规划”的完整认知闭环。

这一技术突破,让AI从“文字工具”升级为“世界模拟器”。

在海外,OpenAI的Sora 2展现出对真实世界的深度模拟能力,World Labs的RTFM 模型可从单幅图像创建3D空间;在国内,智源悟界・Emu3.5成为NSP范式的标杆,蚂蚁百灵大模型在多模态生成、方言识别领域逼近GPT-5水平。

世界模型的成熟将重构多个行业。自动驾驶领域,通过模拟复杂路况降低实车测试成本;机器人训练中,虚拟场景预训练大幅提升实体机器人的环境适应能力;科研领域,模拟分子运动加速新药研发。

智源报告指出,这一技术将成为AGI的核心共识方向,2026年将有更多企业加入布局,推动认知智能进入规模化应用阶段。

如果说世界模型是AI的“大脑”,具身智能就是让大脑“走进现实”的载体。

2025年的“百机大战”后,2026年具身智能行业进入“出清期”,同质化企业因资金断裂或技术不足被淘汰,头部企业凭借订单优势与技术积累形成格局。

技术层面,“世界模型+强化学习”的闭环进化模式成为主流,智源发布的通用具身大脑RoboBrain2.0与小脑基座RoboBrain-X0,实现跨场景多任务轻量化部署;海外Tesla Optimus 2.5已应用于工厂生产、农场运营等真实场景。

商业化方面,行业从实验室验证转向量产交付,智元、乐聚智能等企业推进上市进程,标志着具身智能从“技术演示”走向“产业工具”。

值得注意的是,具身智能的爆发离不开AI大模型的支撑。大模型赋予机器人自然语言交互能力与复杂任务规划能力,让机器人从“专用设备”升级为“通用助手”。

2026年,工业制造中的精密装配、服务业的个性化服务、医疗领域的辅助诊疗,将成为具身智能落地的核心场景,推动实体产业智能化转型进入深水区。

面对日益复杂的任务需求,单智能体的能力天花板逐渐显现,多智能体系统(MAS)成为解决复杂问题的关键路径。

不同于单智能体的独立工作模式,MAS通过智能体间的协作分工,实现“1+1>2”的认知升级,其逻辑契合“多样性预测定理”——足够多且独立的智能体协作,可使系统准确率逼近100%。

2026年,多智能体发展的核心突破是“协议标准化”。

MCP与A2A通信协议被捐赠给Linux基金会后实现分层融合,成为Microsoft、Google等巨头及LangChain、AutoGen等框架的原生支持协议,IBM计划将ACP协议并入A2A,推动行业标准统一。

这意味着,不同企业开发的智能体将拥有通用语言,能够跨平台协作完成复杂任务流。

应用层面,MAS正从科研领域向产业场景渗透。例如,金融领域的智能体团队可协同完成风险评估、投资分析、客户服务;工业场景中,生产智能体、质检智能体、物流智能体形成协作网络,优化全产业链效率。

ToC与ToB的价值兑现期来临

技术突破最终要通过应用落地实现价值闭环。2026年,AI应用将呈现“ToC超级应用竞逐+ToB垂直突破”的双轨格局,经历早期概念验证的“幻灭期”后,真正可衡量的商业价值将集中爆发。

“All in One”的超级应用成为C端AI竞争的核心战场。这种以单一入口实现信息获取、任务规划、问题解决的闭环模式,依托高算力成本与庞大用户数据迭代,正在重塑互联网流量格局。

海外,ChatGPT、Gemini日活过亿,Gemini已取代Google Maps原生语音助手,实现功能内化;国内,蚂蚁“灵光”AI助手上线6天下载量破200万,支持30秒生成小应用与全模态输出;字节豆包依托抖音生态引流,月活位居全球第二,仅次于 ChatGPT。

 

超级应用的竞争本质是生态整合能力的较量。

字节跳动凭借短视频流量优势,将AI助手深度融入内容创作、社交互动、生活服务场景;阿里以千问App为核心,整合消费、支付、物流等电商生态资源;蚂蚁集团则依托金融科技优势,让“灵光”助手具备理财咨询、生活缴费、政务办理等复合功能。

2026 年,超级应用将进入“生态闭环决战”阶段,能够实现跨场景无缝衔接、个性化精准服务的产品,将定义AI时代的“新BAT”格局。

与此同时,垂直赛道成为中小玩家的突围机会。多模态、大健康、教育等高ROI领域呈现“低频高价值”特征,Google Nano Banana Pro单次调用价格为文本模型的几十倍,但仅需1.5%调用量即可实现同等收入。

国内,蚂蚁“蚂蚁阿福”健康App聚焦慢病管理、健康咨询等场景;MiniMax的海螺AI深耕视频创作赛道,成为自媒体、设计师的必备工具;字节即梦AI在教育领域的个性化辅导功能,精准击中用户痛点。

 

这些垂直应用凭借高用户粘性与强付费意愿,正在构建可持续的盈利模式,成为C端AI商业化的重要补充。

2025年,95%的GenAI Pilot项目未产生可衡量影响,B端AI应用进入“幻灭低谷期”,核心症结集中在数据质量、系统集成、成本失控三大问题:46%企业将“现有系统集成”列为首要障碍,AI应用仍依赖手动操作ERP/CRM;多智能体的涌现行为失控、调试困难导致落地受阻;死循环通信、自我对话等问题造成高额成本损耗,曾有4个LangChain智能体11天消耗4.7万美元的案例。

但行业拐点已现,2026年下半年将迎来V型反转。随着数据治理工具的成熟与行业标准接口的统一,AI与企业现有系统的集成效率大幅提升,多智能体协议标准化解决了互操作性问题,算法优化与硬件升级降低了推理成本,让AI应用的ROI可量化、可追踪。

2026年,B端AI的落地将呈现三大特征:一是行业定制化深化,通用大模型通过微调适配特定场景,例如金融领域的风控模型、制造领域的质检模型;二是轻量化部署成为主流,边缘计算与模型压缩技术让中小企业无需高额算力投入即可享受AI服务;三是价值闭环明确,从“降本”向“增效”“创新”延伸。

 

繁荣背后的隐忧与破局之道

AI产业的爆发式增长,并未掩盖底层矛盾与潜在风险。盈利模式模糊、算力瓶颈、安全合规压力、人才缺口等问题,正在考验行业的可持续发展能力,也成为2026年AI企业必须突破的关键关卡。

智谱与MiniMax的上市招股书,揭开了AI企业的盈利难题。MiniMax三年累计亏损近13亿美元,C端业务依赖营销投放驱动增长,“高投入-高增长-低盈利”模式难以持续,用户留存困境导致营销效率低下。

智谱虽实现亿级收入,但仍未实现全面盈利,大模型研发的高额算力成本与人力成本,对现金流构成持续压力。

这并非个例,当前全球头部AI企业中,除少数企业通过生态协同实现盈利外,多数仍处于“投入大于产出”的阶段。

破局路径集中在三个方向。一是成本优化,通过MoE架构、混合注意力机制等技术创新提升模型效率;二是商业模式创新,B端企业从“一次性部署”转向“订阅制服务”,C端产品深化“免费+增值”模式,提升ARPU值;三是场景深耕,聚焦高价值垂直领域,例如AI制药等高毛利场景成为盈利突破口。

2026年,盈利能力将成为AI企业的核心竞争力,无法构建可持续盈利模式的企业,将在行业洗牌中被淘汰。

算力是AI产业的核心基础设施,2026年将迎来“需求爆发+格局重构”的双重变革。

随着生成式AI与智能体的大规模落地,推理算力需求首次超过训练算力。根据IDC发布的《全球人工智能算力发展白皮书》数据显示,2025年全球AI算力市场规模已突破60万亿元,预计到2026年底将达到120万亿元,正式迈入百万亿规模时代。

但当前算力格局仍受海外垄断,国内高阶AI芯片缺口明显,成为制约产业发展的关键瓶颈。

为突破算力困境,国内正从技术创新与生态建设双管齐下。

一方面,开源芯片架构成熟与国产AI芯片崛起,打破英伟达垄断,2026年中国高阶AI芯片本土份额有望接近 50%,中芯国际、华虹的BCD工艺产能利用率满载;

另一方面,国家层面加快“东数西算”工程建设,推动训练推理分离架构普及,这些举措共同推动算力成本持续下降,为AI普惠奠定基础。

AI技术的快速发展,让安全风险从“模型幻觉”升级为更隐蔽的“系统性欺骗”,深度伪造、模型投毒、数据泄露等问题频发。

据国际刑警组织数据,2025年全球深度伪造诈骗案件数量同比增长87%,涉案金额超30亿美元,安全合规成为企业落地的“生死线”。

2026年,传统网络安全防御体系已难以抵御AI原生攻击,行业正面临从“被动修补”到“原生免疫”的紧急转型,AI安全攻防正式进入“军备竞赛”新阶段。

技术层面,Anthropic的回路追踪研究致力于从内部理解模型机理,OpenAI推出自动化安全研究员,智源研究院联合国际顶尖机构发布全球首个AI欺骗系统性国际报告。

监管层面,欧盟《人工智能法案》已于2025年2月生效,中国出台生成式AI版权保护细则,全球形成差异化监管框架,要求企业公开训练数据清单、建立内容审核机制,合规成本成为企业必须承担的运营成本。

2026,AI成为社会基础设施的元年

站在2026年的时间节点回望,AI产业已完成从“技术概念”到“社会基础设施”的蜕变。

智谱与 MiniMax 的上市,标志着资本对 AI 价值的认可;智源十大趋势的落地,展现了技术从 “实验室” 到 “产业界” 的跨越;ToC与ToB应用的爆发,让AI深度融入日常生活与生产经营。

2026年,AI将实现从“认知”到“创造”的跨越,AI+新能源、AI+医疗、AI+制造等跨界融合深化,推动实体经济高质量发展,重塑就业结构与生活方式,新岗位不断涌现,智能化服务覆盖各个角落。

但AI的发展并非坦途,盈利模式的探索、安全风险的防控、伦理边界的界定,仍需要行业、政府、社会的共同努力。

正如智源研究院理事长黄铁军所言,AI的发展要重视“结构决定功能,功能塑造结构”的相互作用,只有让技术发展与社会需求同频共振,才能推动AI稳健迈向价值兑现的新阶段。

2026年,既是AI产业的价值爆发年,也是行业规范的奠基年。当资本的热度褪去、技术的泡沫消散,真正能够解决社会痛点、创造实际价值的AI企业,将在时代浪潮中脱颖而出。

而我们每个人,既是这场智能革命的见证者,也是参与者和受益者,AI与人类的共生共荣,正在开启新的篇章。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、数博会、国家网安周与全球云计算等大型活动的官方指定传播媒体之一。深入原创报道云计算、人工智能、大模型、网络安全、大数据、区块链等企业级科技领域。

本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

我们采访了智象未来联合创始人姚霆,他指出在多模态领域,深度 Scaling up 模型能力提升收益放缓,而广度 Scaling up 会带来更多惊喜,多模态能力也在重塑大模型推理过程。另外,2025 年的模型价格战倒逼厂商三大加速:研发新模型抢占短暂的版本优势、提升推理速度、升级高性价比架构降本。他认为,低价趋势 2026 年将延续,核心原因是市场远未饱和。结合公司情况,姚霆表示模型商业模式从卖 API、积分制转向“按结果付费”。下面是详细对话内容,以飨读者。

多模态大模型的 Scaling up

InfoQ:Scaling up 是否仍是最佳路线?

姚霆: 对于多模态大模型而言,Scaling up 有深度和广度。深度 scaling up 就是类似于单一多模态任务的纯粹模型参数 scaling up 过程,我们会发现这种 scaling up 下模型能力提升收益放缓,并不是指数级的增长,与之搭配的还需要高质量数据和架构的“Scaling up”,而且盲目扩增模型参数也会对推理 cost 带来极大地负担,所以我们在深度 scaling up 过程中除了模型性能之外更多地会去考虑训练和推理的 cost,期望达到极致的性能 - 效率平衡。

而广度 scaling up 指的是从垂域场景和商业化落地的视角下去看 scaling up,即不同多模态任务之间的 scaling up,我们发现这种广度上的 scaling up 会带来更大的惊喜,例如在联合架构中去实现多模态理解和生成任务的统一,以及视频生成和音频生成任务的统一,衍生出类似音画同步的特色。

InfoQ:MoE 架构为什么会成为 2025 年的主流架构?其在参数效率与推理成本间的平衡能力,是否彻底改变了大模型的开发与部署逻辑?非 MoE 路线的企业如何构建差异化竞争力?

姚霆: 稀疏 MoE 架构的一大优势是较高的推理效率,尽管其模型参数量很大,但在推理过程中只有部分参数被激活,这样既保持了高参数量带来的模型学习能力,也在部署推理过程中表现出较高的效率。

而对于非 MoE 架构,也就是参数稠密型的模型,虽然推理的性价比会比 MoE 架构低,但是对于垂域任务,稠密型模型由于总参数量更小,部署更加灵活,也可以体现出较好的效果。

多模态大模型的代表性发展

InfoQ:2025 年多模态能力取得了哪些飞跃性发展?Nano Banana Pro 代表的图片生成模型、OpenAI Sora、Google Veo 3 代表的视频生成模型,分别做了哪些优化得到了不错的效果?

姚霆:2025 年多模态大模型能力有几个代表性的发展:

  1. 音画同步生成,让视频从默片时代进入了有声时代;

  2. 主体参考的一致性,实现了从片段化到连贯叙事的转变,AI 漫剧因此迎来了井喷的爆发;

  3. 运镜表达、表情演绎,让视频生成更具备影视表达,从“形似”到“神似”。

Veo 3 就在音画同步上做的很出彩,而 Nano Banana Pro 则将主体参考一致性发挥到新的高度,因为都是闭源模型,所以只能猜测在技术上不会局限于单一的 DiT 架构,例如借助多模态推理和生成的统一(VLLM+DiT)实现更精准的多模态内容编辑,而将更多不同模态的 token(文本、图像、视频、语音等)融入到统一的架构中则能端到端实现类似音画同步的能力。

InfoQ:多模态能力是否会重塑推理?跨模态推理是否也成为必答题?预计推理能力的突破方向在哪里?

姚霆:2025 年 多模态能力已经在重塑大模型推理过程,从 DeepSeek OCR 中使用图片来进行长文本压缩,到 Nano Banana 中直接生成解题过程的图片,多模态能力已经成为大模型推理能力中不可或缺的一部分。

多模态数据往往能提供比纯文本数据更稠密、直观和具备逻辑关联的信息。目前多模态数据越来越多的引入,对于大模型结构、训练方法以及数据三方面都会带来新的挑战。其中,大模型结构要尽可能支持原生多模态的输入或者输出,对于模型的参数量上提出了更高的要求;训练方法上需要去平衡各种不同的任务,保证模型在不同任务上都达到一定的收敛程度;数据上则对数据的广度和精度上又有了进一步的要求,广度上需要尽可能涵盖需要的多模态推理任务,同时高质量精品数据可以在训练后期提升推理能力。

InfoQ:从语言模型到多模态模型,再到世界模型,这个演进的本质是什么?您认为世界模型未来发展趋势如何?

姚霆: 从语言模型到多模态模型,再到世界模型,演进的本质是“大模型对真实世界的建模能力升级”:语言模型是“理解人类符号”,多模态理解模型是“感知世界表象”,多模态生成模型则是“模拟世界表象”,而世界模型是“掌握物理规律和因果关系并与之交互”,这也是通往 AGI 的必经之路。

因此,世界模型未来必将会在理解物理世界空间结构的同时,提升对物理规律和因果关系的刻画能力,而且通过与物理真实世界的交互实现从感知到决策的闭环。

“低价趋势肯定会延续”

InfoQ:2025 年模型价格战最关键的影响是什么?价格战倒逼厂商做了哪些架构演进?低价趋势在 2026 年是否会继续延续?

姚霆: 主要还是倒逼模型厂商去持续加速,一是加速研发新模型形成短暂的版本优势,二是加速模型的推理时间,时间就是金钱,三是加速模型架构的升级,引入性价比更高的架构设计来降低成本。低价趋势肯定会延续,因为市场还远没有饱和。

InfoQ:2025 年在 B 端和 C 端,都有哪些创新的商业模式出来吗?

姚霆: 创新的商业模式是很难的,所以我觉得更多是一些特色吧。

B 端和 C 端的界限越来越模糊,总体来说都是内容的生成者,真正的海量 C 端其实是内容的消费者,所以可以把两个端一起谈,商业模式的创新就是从售卖 API 提升到了售卖结果,以前 B、C 两端都是积分制,本质就是价值折算的积分,但是我们在不断探索按照结果来付费。

在移动端,我们也在突破过去 web 端复杂的积分逻辑对应的不同的会员等级,pro、ultra 等等,我们只会把功能区分为会员功能和非会员功能,然后按需充值即可,不会再纠结额度来觉得是否续费。

InfoQ:在您看来,2026 年大模型竞赛的核心是什么?您认为下一次“大模型代际飞跃”可能来自哪条技术路线?

姚霆:2026 年 大模型竞赛的核心,会从“技术能力”转向“价值落地能力”,类似于比拼“行业收入规模”和“客户留存率”。谁能更快将技术转化为行业实效,谁就能占据先机。

下一次“代际飞跃”很可能来自两个方向:

一是新颖的用户交互体验,随着基础原子能力目前逐渐饱和,2025 年 Agent 相关的应用出现了爆发式的增长,而 Agent 爆发的背后实际上代表了用户在认可大模型能力的同时又对于 AI 应用的交互体验提出了更高的要求,让大模型从单一的原子能力向完整解决方案提供者演变,一旦在用户交互方式、交互体验上跨越式提升,就会带来新的机遇。

二是专业级能力的大众化,目前大模型能力对于专业从业者来说已经达到一个很惊艳的程度,但是对于大众来说还是存在一些使用上的“困难”,这种困难可能来自于高昂的推理成本,编写专业级 prompt 的入门难度,以及缺乏大模型使用经验以及思维,而下一次飞跃可能就来自于如何拉近大模型对于大众的隔阂,出现真正的全民级 AI 应用。

 “模型和商业化一直会是两个最大挑战”

InfoQ:根据您的观察,科技公司 2025 年面临的压力如何?对此采取了什么样的应对措施?员工们的状态如何?

姚霆: 对我们这样的模型研发的公司来说,模型和商业化一直会是两个最大的挑战,这两个挑战汇集在一起就是对于底层模型架构的突破变成必选项,模型公司不能像过去那样不断的优化数据和推理来解决用户的问题,而是要在架构上做出突破,敢为人先。

非常开心的是我们的员工状态始终保持战斗状态,因为我们不要 80 ->85,而是要 120 分的创新和颠覆,同时模型团队也和业务团队有了更多的协同,这种协同对于模型团队的能力落地起到非常重要的作用。

InfoQ:经过一年竞赛,国内前沿 AI 水平取得了怎样的成绩?是否赶上了硅谷科技公司?

姚霆: 在多模态大模型这个赛道,我觉得国内外是百花齐放,例如我们在 2025 年 4 月的图像模型 HiDream-I1 开源打响了国内多模态生成式大模型登顶国际竞技场的第一枪,同时大家也开始重视了多模态生成式大模型的竞技场,这些过去只有硅谷科技公司的模型名单里开始快速出现国内的各家模型。

InfoQ:您认为,2026 年的技术赛点可能是什么?您会重点关注哪些行业和技术?

姚霆: 技术赛点从多模态模型架构上来说我觉得还有比较长的路,但是在应用上我觉得技术的赛点是多模态 agent 的成熟落地。2025 年上半年的 Manus,下半年持续火热的 vibe  coding 都是大语言模型的应用落地的典型案例,多模态模型看似比大语言模型更解决用户,但是生图生视频场景还没有出现真正技术应用上完全解决用户痛点的 agent,所以我们也会更关注多模态 agent 。

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

0%
icon展开列表
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
今天
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
今天
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
今天
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
01月13日
img
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
01月13日
img
一个模型统一4D世界生成与重建,港科大One4D框架来了
01月13日
img
端到端智驾的算力困局,九章智算云这样破局
01月12日
img
真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线
01月12日
img
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
01月12日
img
清华等团队用AI驱动百万倍速药物筛选,一天内十万亿次扫描的超高速虚拟平台
01月12日
img
2026年,大模型训练的下半场属于「强化学习云」
01月12日
img
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤
01月12日
img
AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房
01月12日
img
被Jim Fan点赞!全球第一的千寻智能Spirit v1.5正式开源!
01月12日
img

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

还记得那个穿着「Lululemon」紧身衣、主打温柔陪伴的家用人形机器人 NEO 吗?

图片

上次聊到它时,大家还在吐槽其「远程操控」的隐私安全问题,调侃每个机器人的背后可能都是一个「印度小哥」。

昨天,1X 公司带着它的全新「大脑」亮相:1X World Model。这一次,NEO 似乎准备把「背后的操作员」给解放了。

简单来说,现在的 NEO 不再只是死记硬背动作,它学会了像人一样「想象」。通过观看海量的网络视频和人类第一视角的实操录像,它理解了物理世界是如何运作的:东西掉了会下落,门是可以推开的。

他们把类似 Sora 的视频生成技术装进了 NEO 的脑子里,接到指令时,它会先在脑海里生成一段「自己成功完成任务」的视频,然后倒推身体该怎么动,才能把这段想象变成现实。

不过,官方博客中也表示,有时候会出现「脑子学会了,手没学会」的情况:脑补出的视频很完美,但实际动作可能会抓空。

图片

那么这一次是「瑜伽服」下的真功夫,还是只存在于 Demo 里的「剪辑魔法」呢?不管技术落没落地,热度已经先爆表了。到截稿时间,官方推文浏览量已突破 500 万。

图片

看来,在经历了 AI 时代各式各样炫酷 Demo 的轮番轰炸之后,大家还是忍不住想看看:这一回,它是真长脑子了吗?

以下是 1X 技术团队对这颗「新大脑」的硬核拆解:

图片

家庭机器人要真正走进现实环境,必须具备常识性的行为能力以及对物理世界的深刻理解。

当前许多机器人基础模型采用的是 VLA 范式:即在一个预训练的 VLM 之上,增加一个用于预测机器人动作的输出头(例如 PI0.6、Helix、Groot N1.5)。VLM 能够从互联网规模的数据中学习到丰富的知识,但其训练目标更侧重于视觉与语义理解,而非对物理动态过程的预测。

因此,即便是对人类而言非常简单的任务,模型往往也需要数万小时、成本高昂的机器人数据才能学会完成。此外,为了进一步强化模型对物理交互中空间关系的理解,研究者通常还需要引入各种辅助训练目标(如 MolmoAct、Gemini-Robotics 1.5)。

在这篇博客中,1X 介绍了基于视频预训练的世界模型——1XWM,并将其集成进 NEO 机器人作为其控制策略。

与 VLA 模型直接从静态的图像-语言输入中预测动作轨迹不同,世界模型驱动策略是通过文本条件下的视频生成来推导机器人应采取的动作。借助互联网规模视频中蕴含的真实世界动力学规律,该世界模型能够在无需大规模机器人数据预训练、也不依赖任何相关的遥操作演示的情况下,即可泛化到全新的物体、运动方式和任务场景。

这标志着机器人智能范式的一次转变:机器人开始直接受益于视频预训练规模化带来的能力跃迁,而这一切得以实现,离不开一整套为高保真人类具身到机器人具身迁移而设计的硬件系统支持。

图片

从视频知识到世界模型

如今,诸如 Veo 和 Sora 等前沿文生视频模型已经能够生成极其逼真的视频内容。然而,这些模型在零样本生成场景下并未与机器人具身形态对齐,因而在控制任务所需的多个关键维度上往往存在不足,表现在以下几个方面:

  • 视觉/空间层面:生成的视频是否与机器人的相机内参和自我中心视角一致?是否能够准确保留操控任务所需的深度信息以及精确的空间关系?

  • 运动学层面:生成视频中的机器人动作是否在该具身形态下可实现,是否遵循其结构特性、关节极限、速度约束以及执行器能力?

  • 物理层面:生成过程是否避免了物理上不可能的结果(例如物体瞬移),从而保证其能够转化为现实世界中的成功执行?

原始视频能够提供看起来会发生什么,但并未给出如何去做。为了将视频知识转化为真正可用于控制的世界模型,1X 借助自身的端到端系统架构,采用了一种两阶段的对齐过程,思路与 DreamGen、UniPi 等已有工作一脉相承:

  • 世界模型主干:这是一个文本条件扩散模型:先在互联网规模的视频数据上进行预训练,随后在人类第一视角视频数据上进行中期训练,并最终在 NEO 专属的传感器-运动日志上进行微调。该模型能够高保真地预测场景随时间演化的过程,在视觉、空间和物理一致性方面表现出色。

  • 逆动力学模型(Inverse Dynamics Model, IDM):通过训练 IDM,将像素空间与执行器控制连接起来,使其能够预测在生成帧之间完成状态转移所需的精确动作序列。同时利用 IDM 的评估指标和拒绝采样机制,对生成结果施加运动学约束,从而确保动作在具身层面上的可行性。

在推理阶段,系统接收一个文本指令和一帧初始画面:世界模型负责生成符合意图的未来场景演化,逆动力学模型从中提取所需的动作轨迹,最终由机器人在现实世界中执行该动作序列。

图片

1XWM 的训练与推理流程

1XWM 的主干模型基于一个 140 亿参数的生成式视频模型。为了使该模型适配 NEO 的具身形态,1X 还采用了一种多阶段训练策略:

  • 第一视角中期训练:使用 900 小时的人类第一视角视频数据进行训练,使模型对第一人称的操作任务产生对齐。在这一阶段,模型能够学习到通用的操作行为模式,但仍然难以生成由 NEO 执行具体任务的视频。

  • 具身微调:随后,使用 70 小时的机器人数据进行微调,使模型进一步适配 NEO 的视觉外观与运动学特性。

以 DALL·E 3 等工作为例,已有研究表明,通过使用更具描述性的视觉文本标注进行训练,可以显著提升视觉基础模型对提示词的遵循能力。然而,许多第一视角数据集仅包含简要的任务描述。为此,1X 利用一个 VLM 生成更加详细的描述性字幕,并通过字幕上采样的方式将其用于训练。

此外,IDM 在 400 小时未经过滤的机器人数据上进行训练,其中既包括随机探索数据,也包含与任何具体任务无关的运动轨迹。这使得模型能够在任意状态下对 NEO 的运动进行准确追踪。

在测试阶段,系统接收一帧初始画面以及一条指导 NEO 执行动作的文本指令。1XWM 负责生成未来的视频序列,随后由 IDM 从生成视频中提取对应的机器人动作轨迹,并将其直接下发至机器人执行。为保证轨迹的平滑性,IDM 的输出会在多个初始噪声样本和滑动窗口维度上进行时间平均处理。

图片

NEO 后训练数据集主要包含高质量的抓取和放置数据(98.5%),这些数据经过筛选,仅包含桌面操作且手部可见的场景。通过利用基础视频模型的网络级预训练,1XWM 模型可以泛化到各种未曾见过的物体、环境和任务。

1XWM 到底能做啥

研究团队进一步评估了 1XWM 在任务泛化方面的能力,重点关注其是否能够完成 NEO 从未经历过的任务,以及生成视频与真实机器人执行之间的一致性程度。

在实验中,搭载 1XWM 的 NEO 被用于执行多种超出既有经验的任务,包括:

  • 抓取分布内与分布外的物体;

  • 操作此前从未见过、但具备复杂可供性的物体;

  • 完成需要全新动作模式的全新任务。

实验结果显示,1XWM 生成的视频与真实世界中的执行过程整体高度一致。将模型生成的视频与机器人实际完成任务后拍摄的视频进行并排对比,可以发现二者在视觉表现上非常接近。这表明,1XWM 在空间结构理解、运动学约束建模以及物理一致性等方面已经具备较强能力。

抓取:

图片

新动作:清洁

图片

接下来,1X 尝试需要双手协调和人机交互的任务。这些能力并未包含在训练数据集中。这表明此类知识来源于视频预训练和以第一人称视角进行的人机交互训练。由于 NEO 的身体结构与人类非常相似,因此从人类视频数据中学习到的功能可以直接迁移应用。

图片
图片

研究团队还通过系统性的实物实验评估了 1XWM 在分布内(ID)与分布外(OOD)任务上的表现。每类任务均重复执行 30 次。结果显示,1XWM 在多种动作原语上都保持了稳定的成功率,不过部分对精细操作要求较高的任务(例如倒液体、绘图等)仍然具有一定挑战性。

图片

能否将视频质量与任务成功率联系起来?

如果可以,就能使用视觉指标来衡量和改进视频质量,并估计实际任务成功的可能性。

有时,生成的视频是否可能成功一目了然。例如,向 1XWM 模型输入拉取纸巾指令,有时会生成 NEO 机器人拿起纸巾盒而不是拉取纸巾的视频。执行这些错误生成的视频时,成功率几乎为 0%。

1X 团队注意到像测试时计算这样的方法可以提高任务成功率。受此启发,他们尝试并行生成多个视频,并执行其中质量最好的一个。这个选择过程可以手动完成,但也可以使用 VLM 评估器进行自动化。

图片

第一视角数据与高质量字幕的重要性

基于此前假设:生成视频的质量与任务成功率之间存在相关性,研究团队对若干训练选择进行了视觉层面的消融分析,重点考察了字幕上采样以及第一视角人类数据训练这两项因素的影响。

实验共使用了三个评测数据集,每个数据集均包含 500 组起始图像–提示词对:

  • 分布内数据集:包含与机器人训练数据分布一致的复杂任务和场景,主要是杂乱环境中、物体位置较为困难的抓取与放置任务。

  • 新任务数据集:由一组全新的任务构成,例如搅拌碗、抽纸、相对尺寸判断(选择更大的物体)、双手协同操作等,数据采集于真实世界中的简单背景场景。

  • 分布外 T2I(OOD T2I)数据集:完全由抓取任务组成,其初始帧由文生图模型生成,随机采样分布外的家庭物体与背景场景。

下面是新任务数据示例:

图片

团队还要求人工标注员审查每个生成的视频,并根据物理合理性、任务完成情况以及与 NEO 的形态和能力的一致性来决定接受或拒绝该视频。

图片

字幕上采样在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与视频模型预训练时的文本条件更加匹配,也能更清晰地引导具体动作生成。

引入第一视角人类数据则显著提升了新任务和分布外场景下的生成质量,说明这类数据为操作任务提供了可迁移的通用先验,且与 NEO 的类人具身高度契合。

不过,在已有大量 NEO 数据覆盖的分布内任务上,额外加入第一视角数据可能会稀释后训练数据分布,对效果提升有限,甚至略有负面影响。

图片

参考链接:https://www.1x.tech/discover/world-model-self-learning

作者 | 华卫

 

本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

 

我们采访了真机智能董事长兼首席科学家刘智勇,听他讲述了视觉语言导航(VLN)技术的当前难题、具身智能领域在 2025 年的各类进展以及今年在能力边界上的两个突破方向和技术决胜点。他表示,一旦世界模型的因果推理能力取得突破,无论是机器人的安全性还是行为和推理的安全性问题,都能得到很好的解决。

 

“2026 年本体厂商肯定会收缩,估计中国最终只会剩下 5 到 8 家本体机器人公司。”他指出,核心是在某个单一场景实现盈利,不是毛利而是不依赖大量售后成本的净利。但单纯的整机销售并非很好的商业模式,如果只卖硬件,后续的售后压力会非常大,用户一次性付太多钱也承受不了。

 

下面是详细对话内容,以飨读者。

VLN 和世界模型上“大分”

 

Q:2025 年具身智能领域有哪些突破性进展让您印象深刻,包括技术、产业化和生态建设上?这些进展是否已经为具身智能从实验室走向特定场景的“初步普及”奠定了基础?

 

刘智勇:我印象比较深刻的是 VLN 方向的相关进展。过去我们主要是以 SLAM 为核心的技术路线,但从去年到现在,涌现出了大量基于视觉语言作为多模态输入的导航模型。这种视觉语言模型能解决零样本泛化的问题,我们不再需要预先构建地图了。把一个机器人放到任何全新的固定场景里,它都能实现零样本泛化,自主完成导航任务。另外,像 UniNavid、ETPNav、FSR - VLN 这些代表性工作,也让机器人门到门配送的实现出现了曙光和可能性。这就是从几何测量的导航范式,转变到学习增强的导航范式。当前的瓶颈在于未达极高的导航成功率。

 

从场景普及的角度来说,核心是我们不再需要预先建图了。这就意味着,把机器人放在任何新的位置上,它都能立刻开始工作,直接解锁了很多之前无法覆盖的场景。最关键的一点是,零样本能力等同于部署成本的大幅降低。部署成本降下来之后,整个成本结构就能适配场景化的盈利模式,这正是为场景普及奠定的核心基础。技术成熟后,前期的准备和部署工作会大幅减少,这也为未来的产业发展打下了很好的基础。

 

Q:具身智能的核心技术栈正在如何演变?2025 年这一年有哪些值得关注的新范式或共识?

 

刘智勇:从算法角度来看,核心变化是从之前感知、决策、执行分离的多模块化范式,逐渐转向 VLN 或 VLA 的端到端统一范式。从数据角度来说,发展方向是从单纯的真实数据采集,逐步转向合成数据、离线轨迹挖掘以及世界模型这些领域。训练范式也发生了改变,从强化学习调参慢慢转向世界模型驱动。现在世界模型算是行业内解决数据问题的一个共识,原因很简单,不管是在长程层面模拟预测未来状态、在底层层面预测动态物体轨迹,还是弥补数据的 corner case,世界模型都起到了不可或缺的作用。

 

Q:世界模型被寄予厚望,被认为是实现高级推理和规划的关键。现阶段来看,它对机器人实际能力的提升体现在何处?之后还有哪些方面的潜力?

 

刘智勇:现阶段来看,主要体现在三个方面。第一,机器人执行长程任务时容易陷入短视困境,而世界模型可以模拟未来的长程状态,对全局规划能力有非常重要的提升;第二,动态环境下静态地图容易失效,无法准确指引路径轨迹,世界模型能够预测动态物体的轨迹,让机器人的本地行动更安全;第三,世界模型能较好地生成相关数据,减少数据泛化鸿沟。我们认为,世界模型是 VLN 突破长程规划和动态适应瓶颈的充分非必要条件。但现在世界模型的主要问题是黑盒,而非白盒可微。

 

Q:大模型的快速发展,为具身智能的“智能”部分带来了哪些质变?

 

刘智勇:从我们的实践来看,最核心的变化是导航和路径规划的技术范式发生了转变。过去我们采用的是 SLAM 方案,现在则转向了 VLN 范式。过去的 SLAM 方案存在几个明显的局限,一是方案本身不具备语义理解能力,二是依赖静态地图,必须预先建图才能使用,三是需要对特定的传感器做专门标定。而 VLN 范式完全不同,它可以结合语言和视觉实现语义层面的理解,同时能应对非静态环境,实现动态适配。更关键的是,这个方案不再依赖高规格的激光雷达,也不需要预先部署地图,成本和效率都实现了大幅优化。大模型的快速发展,推动技术范式从几何测量的 SLAM 转向学习增强的 VLN,这正是带来质变的核心原因。行动、观测和语言本来属于三个空间,现在要把三个空间统一起来,这也是目前的核心难点。

大规模落地现在卡在哪儿?

Q:几乎所有专家都指出,高质量、大规模的物理交互数据稀缺是当前最大瓶颈。面对真实数据采集成本高昂的困境,仿真合成数据、人类视频数据等替代方案能走多远?“数据工厂”是可行的解决方案吗?

 

刘智勇:我们面临的主要数据瓶颈有两个,一是数据的场景覆盖不足,比如现在常用的数据集大多基于 Mate Port 3D、Habitat、AI2THOR 等 构建,只包含 固定的训练环境,场景覆盖肯定不够;二是做 VLN 的数据采集成本很高,有时需要 3D 数据采集,标注成本也比 2D 图像高出一个量级。对 VLN 来说,现在数据是完全不足的,既存在场景覆盖问题,又有成本高昂的问题。

 

目前,我们在采用多种数据解决方案。第一是采集真实数据,采集 RGBD 视频流,以及数字手套等,再结合人工标注指令,像 Atomic 和一些基准数据集的主要来源就是真机数据。第二是比较常见的用仿真器生成,比如借助模拟器搭载 3D 场景库,批量生成视觉语言轨迹三元组。第三是采用 新范式,不用额外改动 3D 环境,通过改写人类标注数据的方式生成新样本,这是一种静态片段生成的新范式。另外,未来还有一种发展方向是离线数据、离线轨迹挖掘的方式,有点类似实行微克隆。

 

Q:当前的硬件如灵巧手、关节驱动、传感器等,在哪些方面最能满足机器人的技术需求?又在哪些方面构成了发展的主要制约?

 

刘智勇:要讲满足技术需求的地方,我们可以和轮式机器人做个比较。之前的轮式机器人只能移动到楼下,没办法开单元门、摁电梯,只能在楼下送货或者在室内移动。而现在的灵巧手、一体化关节,再加上一些触觉传感器,能让机器人具备开门、按电梯的能力,这是轮式机器人到人形机器人的一个巨大转变。

 

不过目前硬件也存在几方面的制约。第一,我们还需要高分辨率的柔性触觉皮肤。因为机器人需要用机械灵巧手摁电梯,如果触觉不够灵敏,盲按的波动率大,成功率就会比较低。第二,门把手的种类太多了,如果机器人没有触觉反馈,根本没办法应对成千上万种门的情况,也很难实现场景泛化。再就是机器人要进行成千上万次的反复操作,电机、执行器、丝杠这些部件的脆弱性,可能在我们的应用场景中被放大 100 倍。所以从硬件角度来讲,目前主要的制约就是开门要做得好、触觉要做得好这两点。

 

Q:目前为止,制约具身智能大规模落地应用难题还有哪些?

 

刘智勇:对于我们的 VLN 技术来说,主要有两方面的难题。第一是感知决策的延迟问题,这甚至可能是致命的。简单来说,长程规划和行动频率的匹配很关键,如果感知和决策环节出现延迟,机器人在开放环境中运作就会遇到很多麻烦,这就要求必须在端侧做好部署。第二是硬件性能短板,既要让硬件能灵敏地感知外部世界,又要保证它能反复进行操作,而目前这类硬件的耐疲劳性、反脆弱性能还不够强。对于世界模型来说,核心瓶颈是隐式神经表征,而非显式 3D 高斯,可能在开门和按键上缺少精准几何信息。

具身智能该告别 “一锤子买卖”?

Q:面对这样的机遇与挑战,您们在接下来一年的战略重点和核心发力方向是什么?

 

刘智勇:真机智能其实分成了北京真机和苏州真机两个公司。北京真机关注的还是比较传统的 SLAM 加轮式机器人的技术栈和方案,苏州真机则聚焦于 VLN 加人形机器人的技术栈及方案。

 

苏州真机接下来有两个关注重点,第一是通过视觉语言导航的方式,实现无需额外提前部署的门到门配送。过去部署成本太高了,大概占了整个机器人售价成本的 38% 左右。我们希望能实现零样本泛化,换句话说,就是让机器人能够直接理解环境,直接完成导航任务。第二是全身运动控制,要解决的核心问题是开门。之前的控制是基于机器人静态的假设来实现的,哪怕是协作机器人也是保持自身不动去拉开门,这种方式需要的扭矩非常大。我们希望通过全身控制打破静态平衡的限制,依靠动态平衡的方法更泛化地解决开门的问题。

 

把这两个点结合起来,我们既能实现无需预先建图的门到门配送任务,同时又能解决开门和按电梯的任务。这两个方案结合之后,就可以实现最后五公里的门到门配送,既能开门、操作电梯,又能以无建图、无 GPS 的方式完成导航。室内本身没有 GPS 信号,但又需要实现导航,这时候视觉和语言理解的作用就非常关键了。

 

Q:除了直接销售机器人整机,具身智能未来的商业模式可能有哪些创新?

 

刘智勇:整机销售和租赁这两种方式都会存在。但我个人觉得,单纯的整机销售并不是很好的商业模式,更好的方式是 “整机销售 + 每年服务费” 的组合模式。如果只卖硬件,一次性卖完其实很亏,后续的售后压力会非常大。“整机销售 + 每年服务费” 就比较合理,既能保证长期的最大收益,又能解决售后问题,还能让设备商一次性回本。通过这种组合模式,能把原本不赚钱的 “卖铁生意”,变成能持续盈利的长期现金流生意。另一方面,用户一次性付太多钱确实承受不了。

 

除此之外,未来还可能出现按单收费的商业模式。比如人形配送机器人测算下来每单成本能控制在两到三元人民币,和达达这类上游公司合作,机器人完成一单就赚一笔费用。

本体厂商大收缩,要拼什么?

Q:到 2026 年,我们有望看到具身智能在能力边界上实现怎样的突破?整个具身智能领域的技术决胜点可能会是什么方面?

 

刘智勇:2026 年可能会有两个关键突破方向。第一是机器人在非结构化场景中实现稳定作业。要做到这一点,需要机器人具备一定的社交行为表现和自主导航能力。解决了之后,一些之前没想到的非结构化环境下的任务机器人也可能完成了。目前行业内大多还聚焦在结构化环境,所以这会是一个重要突破。第二是突破莫拉维克悖论(Moravec's Paradox)。以往大家觉得,机器能完成人类觉得难的事,但难以完成人类觉得简单的事,而 2026 年可能机器人也能胜任这类任务,会在人类觉得简单的事情上取得突破。

 

至于技术决胜点,我认为有几个关键因素,其中最重要的是世界模型的因果推理能力。一旦这项能力取得突破,无论是机器人的安全性还是行为和推理的安全性问题,都能得到很好的解决。

 

Q:2026 年,全球具身智能公司的竞争情况将如何变化?中国公司与国际巨头各自的优势和赛点分别会在哪里?

 

刘智勇:2026 年本体厂商肯定会收缩,马太效应会非常明显,估计中国最终只会剩下 5 到 8 家本体机器人公司。不过应用场景相关的公司和上游企业会多一些。

 

中国和国际企业的优势不一样,国际公司的大模型技术更先进,基础模型能力更强,国内企业还处在追赶状态,但中国企业拥有供应链成本优势。另外竞争维度也在升级,现在大家可能还在追求单点技术的先进性,到了 2026 年,整体系统的效率会变得更重要。

 

至于赛点,我觉得核心是在某个单一场景实现盈利,不是毛利而是不依赖大量售后成本的净利。谁能做到这一点,谁就能形成数据飞轮,有了数据之后,模型和方法能力会进一步提升,之后再推进跨场景复制。

2025 年的硅谷 AI 圈,最激烈的战场已不止于模型参数和榜单上,另一场残酷的战争也在暗中同步升级。

当大模型一路卷到极限,算力、参数规模、基准测试分数开始出现明显的边际递减,真正被重新定价的,是“人”。

过去几年,硅谷 AI 的主叙事是“谁能训练出更大的模型、刷出更高的分数”。

但进入 2025 年,模型能力仍然重要,却不再是唯一的决定因素;大家的关注重心逐渐从“模型参数与评测分数”,转向“谁能够将模型纳入产品与系统核心,并持续推动其在真实业务场景中发挥作用”。

这一变化,非常直观地体现在一连串人员流动中:

一边是科技巨头高调宣布重金抢人、疯狂扩招 Agent、系统、基础设施方向的研究与工程负责人;另一边,他们又在内部对原有 AI 研究体系进行重组,让多位中高层研究负责人选择离开舞台中央。

在一系列重大人事变动中,Meta 今年的变化尤为瞩目:比如前两天豪掷 20 亿美元买下智能体公司 Manus,顺手也把 Manus 创始人肖弘“纳入囊中”。另外据《华尔街日报》7 月报道,Meta 采用“爆炸式 offer”战术:签约金最高达 1 亿美元,决策窗口短至几小时。

而作为 Meta 的前首席 AI 科学家兼 FAIR 创始人的 Yann LeCun,却在 11 月官宣离职创业,聚焦高级机器智能研究项目(Advanced Machine Intelligence,AMI)。

OpenAI CEO 奥特曼直言,今年他见到了职业生涯中“最残酷的人才市场”,Meta 向他的 OpenAI 团队挖人,还抛出炸裂的报价:“签约金 1 亿美元起步,年薪还远高于此”。

从 Meta 到 OpenAI,从谷歌到苹果,从“首席科学家”到“研究负责人”...... 这些名字的变动,正在折射出一件重要的事情——美国科技巨头的 AI 研发重心,正在整体迁移。

不过研究的价值也从未失效,模型训练依然是产业生长的底座。但 AI 行业更看重的,已逐渐变成了把模型转化为可执行系统、并在真实场景中持续创造价值的能力。

还有值得一提的是,这场混战中,大量华人工程师在站上了关键岗位。

为什么 2025 年的硅谷,裁员和抢人同时发生?

为什么今年看起来“裁员”和“抢人”同时发生?

看似矛盾现象的背后,其实是行业对 AI 发展路径的认知正在发生转向:通用人工智能(AGI)的乌托邦式愿景逐渐褪色,特定领域、可落地的超级智能(ASI)成为新共识。

对此,Anthropic 高管 Jack Clark 曾警告“巨变在即,AI 将把世界撕裂为两个平行宇宙”。

更直接的变化在于,AI 正在从“技术突破期”快速切换到“工程兑现期”。裁员与抢人,正是这一阶段转换在人才市场上的投射。

核心矛盾的起点,是大语言模型(LLM)正式迈入平台期。过去数年,“更大参数、更多数据、更高算力”的线性增长逻辑,支撑着 AI 行业的技术狂热与估值飙升。

但到 2025 年,这条路径的边际收益明显下降。顶尖模型的能力天花板逐渐显现,再叠加算力成本的指数级攀升,企业突然发现,“把模型做得更强”的投入产出比已大幅下滑。

这一点在 OpenAI 身上体现得尤为明显,其年营收约 130 亿美元,却要烧掉 90 亿美元维持运营,2028 年亏损甚至可能膨胀至营收的四分之三,算力成本压力倒逼企业必须转向商业价值兑现。

当技术探索的空间收窄,企业关注的重心自然转向三件事:能不能用、能不能卖、能不能规模化。

这一转向,直接改变了 AI 人才的价值排序。

在技术突破期,中高层研究人才的核心价值在于定义方向、探索未知、构建长期技术壁垒;但进入工程兑现期,企业的战略重心变成“把已有的模型能力转化为稳定的系统、可落地的产品和持续的现金流”。

不是 AI 人才变多了,而是“被需要的 AI 能力类型变了”。

谁在离开舞台中央?长期研究型高层的集体“降权”

2025 年硅谷 AI 人才流动潮中,Meta 是最具冲击力的变量之一:一边以天价薪酬全球争抢工程与产品型人才,一边持续流失 AI 体系核心的研究型高层。

田渊栋被裁、Joelle Pineau 离职、Yann LeCun 话语权旁落,这些并非孤立事件,而是 Meta AI 战略根本转向的集中体现——从“基础研究与产品并行”,彻底转向“以产品为核心的集权化研发体系”。

基础研究不再天然拥有战略优先级,唯有能直接服务产品主线、影响竞争胜负的研究,才能留在权力中心。

这一转向最直观的标志,是 FAIR 实验室的衰落。

2013 年,扎克伯格与 Yann LeCun 共同创立这个以“推动 AI 前沿、造福人类”为使命的基础研究高地,代表着 Meta 对长期 AI 研究的耐心押注——彼时逻辑清晰:基础研究定义能力上限,产品负责兑现价值。

但生成式 AI 浪潮打破了平衡,算力、数据与资本成为核心变量后,组织价值评判标准彻底转向“可转化性”:研究的重要性,不再取决于是否推进认知边界,而在于能否快速落地为产品能力。负责产品落地的 GenAI 团队逐渐成为主线,FAIR 则从“战略源头”退为“技术后方”。

Llama 系列的演进加速了这一趋势。Llama 3 的开源成功让 Meta 成为大厂开源阵营核心玩家,也让管理层明确目标:AI 不仅要领先,更必须渗透进 Meta 所有产品形态。

在此导向下,Llama 4 的规划重点被强拉至多模态能力与应用整合,推理能力、思维链等基础研究被归为“可延后”选项。直到 DeepSeek 与 OpenAI o1 实现推理突破,Meta 才意识到基础能力缺口无法用产品工程弥补,即便抽调 FAIR 团队临时“救火”,路线已难以逆转。

Meta 在 10 月裁掉 600 人,不少 FAIR 老人黯然离场,包括顶级研究员田渊栋。

值得注意的是,这些离开或被边缘化的顶尖研究者并未退场,反而带着对主流 AI 路径的明确判断,分流成截然不同的创业赛道。

最具前沿探索性的,是 Yann LeCun 押注的“世界模型”路线。

作为 FAIR 创始人、图灵奖得主,他始终是主流 LLM 路线的尖锐异议者,长期质疑“堆参数、喂数据”的范式,认为当前模型仅停留在统计拟合,并未真正理解世界。

离开 Meta 后,他创办 Advanced Machine Intelligence Labs(AMI),核心目标是通过建模世界运行规律,构建具备持久记忆、推理与规划能力的系统——这一路线不追逐短期性能指标,而是试图从根源重塑智能实现方式。

另一批研究者选择向现实业务靠拢,Joelle Pineau 是典型代表。

2025 年 5 月,这位 FAIR 体系的核心组织者、Llama 早期技术路线的深度参与者离职,加盟 Cohere 出任首席 AI 官。她长期主导强化学习与对话系统研究,此次转向清晰指向“可控、可部署、能被企业真正使用的 AI”。

而正以“主权模型”重新定位的 Cohere,也借 Pineau 的加入,补齐了研究深度与工程落地之间的关键短板。

还有一条路径,流向了全栈实验室化的创业公司,“PyTorch 之父” Soumith Chintala 是其中的代表。

2025 年 11 月,结束 11 年 Meta 生涯的他加入 OpenAI 前 CTO Mira Murati 创办的 Thinking Machines Lab(TML)。这位曾构建全球 AI 研究基础设施的人直言,离职的原因是希望跳出“极度成功的舒适区”,探索下一代 AI 系统形态。

在 OpenAI 核心研究员持续外流的背景下,TML 正逐渐成为新的承接平台。它以“让强 AI 更可理解、可定制”为方向,集结多位来自大厂的核心成员,凭借高额融资与“开放科学”的研究取向,逐渐成长为能够独立承担前沿探索的“平行实验室”。

谁在被疯狂争抢?华人工程师站上关键岗位

答案从 2025 年硅谷科技巨头们的招聘与收编动态就能读出来,这场激烈的人才抢夺赛主要围绕三类核心能力展开:agent、多模态与实时交互、推理和 AI Infra。

首先是 Agent 与可执行系统方向,即能把模型变成“能干活”的系统。

这类人才的能力,不只限于模型训练本身,而是把模型嵌入到可执行、可操作的系统里——包括多步任务规划、工具调用、页面 / 应用直接操作等能力。

其二,多模态在 2025 年不再停留在“能生成图片 / 文字”这种静态功能,而更强调实时感知、持续交互和环境理解。

极具代表性案例,就是 Meta 在 6 月份不仅斥资约 140 亿美元投资并收编 Scale AI,还将其创始人兼 CEO 亚历山大·王(Alexandr Wang) 招致麾下。

亚历山大·王是一位 97 年出生的美籍华人小伙,从 MIT 辍学,后创立了一家做 AI 数据与评测基础设施的公司 Scale AI,为大型科技公司训练最新 AI 模型。

小扎还让这位年轻人和前 GitHub CEO Nat Friedmany 一起领导新成立的 “超级智能实验室(Meta Superintelligence Labs,MSL)”。

这个 MSL 很不简单,据 OpenAI CEO 奥特曼爆料,Meta 给该团队新员工提供签字奖金可达 1 亿美元(约合人民币 7 亿元)!

至于此消息为啥为从奥特曼口中说出,或许是因为小扎从 OpenAI 猛猛“偷家”吧——扎克伯格在他的备忘录中提到了 11 人,其中至少有 6 人是华人,7 人来自 OpenAI。

据 Business Insider 消息,MSI 首发团队成员中,余家辉、赵晟佳、毕树超、Huiwen Chang、Ji Lin、任泓宇、等 6 人都曾在 OpenAI 担任关键模型、关键团队的负责人。

这些人中,有的人曾参与过 Agent 型、多步推理或执行研究,有人则是在多模态、语音 / 视觉理解、后训练 / 交互系统方面有深厚积累的复合型研究人员。

另外,马斯克的 xAI 虽然暂时没有没有统一公开名单,但关于 xAI 的战略规划,曾多次提到多模态能力(尤其与超算中心、NVIDIA 推理能力结合),这类战略需要大量精通多模态模型与分布式系统的工程师来实现。

其三,关于推理和 AI Infra,主要是为了让模型跑得起、跑得稳、跑得便宜。

这里的“推理与 AI Infra”包含两个层面:

  • 推理系统设计与优化:如何让大型模型在实际场景中高速、低成本地响应;

  • 基础设施与可服务化能力:从数据管线、模型发布、调度、监控到弹性伸缩。

这类人才既要懂深度学习,又要懂系统工程、服务架构、调度策略,在 2025 年极度抢手。

比如,英伟达通过与 AI 芯片初创公司 Groq 的顶尖工程师达成协议,引入其联合创始人 Jonathan Ross 及执行团队。

这批人才曾在谷歌等大厂负责高性能、低延迟的 AI 推理芯片架构设计,而优化推理能力正是 Infra 人才的核心一环。

而谷歌这边,也在忙着抢夺 AI 软件工程师,其中高达 20% 的新增 hires 是“回流员工”(boomerang workers),这类岗位几乎全部聚焦于将内部 AI 研发转写入产品 / 系统层,包括推理效率提升、API 服务化框架、企业级部署架构等。

可见,推理效率和基础设施能力已成为 AI 竞争的重要战场,过去仅靠堆算力已无法满足企业级需求。

总而言之,这些都是硅谷 AI 战场上现在被重金争抢的关键能力,远远超出过去单纯“模型参数”和“benchmark 比拼”。

2025 年,顶级 AI 人才并没有离场,只是大家从论文和 Demo,更多地走向了系统、平台与现实世界。而 2025 年的硅谷,也正是在这场无声的人才迁徙中,完成了一次新的方向校准。

参考链接:

https://www.reuters.com/business/sam-altman-says-meta-offered-100-million-bonuses-openai-employees-2025-06-18/?utm_source

https://www.businessinsider.com/meet-the-people-zuck-hired-for-his-ai-superintelligence-team-2025-7?utm_source

https://www.ft.com/content/3584197e-a99a-4a06-9386-dc65cf603f45?utm_source