标签 具身智能 下的文章

世界模型真的变天了!

今天,谷歌正式发布重磅世界模型原型产品“Project Genie”,只需一句话或一张图,就能一键生成可玩、可交互的实时虚拟世界。它的重磅程度,让谷歌“掌舵人”劈柴哥和 Google DeepMind 创始人哈萨比斯亲自为它站台。

在 Project Genie 生成的虚拟世界中,你可以用 WASD 键移动角色、旋转视角、跳跃,在生成世界自由探索。更重要的是,其生成画面的精细度、整体完成度,已经明显超出以往研究型 Demo 的范畴,在观感上直逼成熟游戏产品。

过去几年,世界模型一直被认为是通往 AGI 的重要路径,但始终存在一个根本问题:它们更像会动的视频,而不是真正的环境。

具体来说,早期世界模型普遍存在几大短板:

  • 生成世界质量偏低,结构简单

  • 难以实时交互,或只能交互一两步

  • 长期一致性差,画面和规则会“漂移”

  • 不符合物理和因果逻辑,更像梦境而非世界

而 Project Genie,第一次把这些问题同时拉到了可用水平。

Project Genie 是一个基于 Genie 3、Nano Banana Pro 和 Gemini构建的原型 Web 应用,其中的核心是谷歌最新的世界模型 Genie 3。

与以往“先生成完整视频”的方式不同,Genie 3 采用自回归生成机制:它会根据世界描述和用户操作,逐帧生成环境状态,而不是播放预先生成好的内容。

这带来了几个关键变化:

  • 长期一致性生成的世界可以在数分钟内保持稳定,不会快速崩坏;系统还能“记住”用户造成的关键变化,记忆时间最长可达约一分钟。

  • 真正的实时交互世界以 20–24 帧/秒运行,用户的操作会即时反馈到环境中,而非触发预设结果。

  • 更高质量的视觉表现生成画面分辨率约为 720p,整体真实感和细节水平明显高于以往世界模型,为智能体理解复杂环境提供了更可信的视觉基础。

谷歌早在 2025 年就将 Genie 3 称为“通往 AGI 的关键一步”。而在 Project Genie 的官方页面中,谷歌再次强调:

Genie 3 让智能体能够预测世界如何演化,以及自身行为如何影响世界,这是实现推理、规划和现实行动的基础。

可以说,在 Project Genie 身上,已经释放出一个非常明确的信号:世界模型正在从长期的前沿研究方向,正式迈入可落地、可探索的关键阶段

一旦世界模型能够稳定生成高质量、可交互、具备长期一致性的环境,其应用边界将被迅速打开。

无论是自动驾驶中的复杂场景模拟、具身智能的环境理解与决策训练,还是游戏开发、影视制作、互动教育与新型媒体内容创作,世界模型都展现出极具想象空间的潜力。

据 The Verge 报道,谷歌选择在这一时间点推出 Project Genie,部分原因在于希望观察用户的真实使用方式,从而发现此前尚未预料到的新应用场景。

Google DeepMind 产品经理 迭戈·里瓦斯透露,谷歌内部已经对 Genie 在电影制作、互动教育媒体等领域,帮助创作者进行场景可视化与世界构建的潜力感到兴奋。

目前,Project Genie 仍是实验性产品:

  • 单个世界最长探索 60 秒

  • 分辨率约 720p,帧率约 24fps

  • 仅向美国地区、18 岁以上的 Google AI Ultra 订阅用户开放

Project Genie 发布后迅速引发热议。马斯克第一时间发文祝贺

关于 Project Genie 的讨论,也在 X 上迅速扩散,不少网友将其称为又一个“变革时刻”。

对此,Project Genie 负责人之一 Jack Parker-Holder 表示:

Genie 3 感觉像是世界模型领域的一个分水岭。我们现在可以生成任何可想象世界的、持续数分钟的实时交互式模拟。这可能正是具身通用人工智能此前缺失的关键一环。

网友们玩疯了,在游戏世界释放创意

具体来看,Project Genie 的使用流程并不复杂。进入页面后,用户可以直接从 Google 预设的多个世界模板中选择,也可以完全自定义环境和角色,构建一个专属的虚拟世界。

为实现更精准的控制,Project Genie 会用 Nano Banana Pro 的能力,先为生成世界打个“草稿”。

整个页面被清晰地分成左右两部分:

  • 左侧用于填写环境的 prompt,例如地形结构、视觉风格和整体氛围;

  • 右侧则用于描述主角的形象与设定,并可选择第一人称或第三人称视角,从而提前确定进入世界后的体验方式。

完成初步设定后,Genie 会先生成一个缩略图,可以对生成内容进行预览和微调。如果符合预期,就能进入生成世界,开始实时交互与自由探索。Genie 3 的响应延时非常低,在控制角色移动时,会带来强烈的沉浸感。

在官方案例中,你可以把自己变成一个球,在草原上自由滚动。

可以看到,如果转换视角,球滚动留下的痕迹并不会消失,新生成的内容也不会覆盖旧区域。这一细节直观地体现了 Project Genie 所强调的世界一致性。

在另一个官方案例中,你可以变成刷墙工人,想刷哪面墙就刷哪面,整个虚拟世界可以实时交互,且看起来十分合理。

谷歌表示,这是想象力空间的无限释放,无论是自然世界或现实场景,还是构建动画、小说中的奇幻世界,甚至是突破时间与空间限制的未来世界,都可以被创造出来。

不少网友迅速上手,开始“放飞自我”式创作,其中,各类游戏风格世界不断涌现。

比如在沙滩上骑摩托:

更绝的是直接制作山寨版“任天堂”游戏。比如马里奥系列,《塞尔达传说》,《银河战士》。

即便抛开体验层面的不足不谈,Project Genie 在生成世界的质量与完成度上,依然足以令人震撼。这也难免让人产生进一步的联想,游戏从业者会不会大规模失业?

这一担忧并非空穴来风。根据 Informa 本周发布的游戏开发者大会(GDC)报告,33% 的美国受访游戏开发者、以及 28% 的全球受访游戏开发者表示,他们在过去两年中至少经历过一次裁员。Project Genie 可能会进一步扩大这种趋势。

不过,围绕 Project Genie 的能力边界,也有人提出质疑。

The Verge 的记者亲自上手试验后认为,从“游戏”的角度来看,Project Genie 所生成的“可玩世界”显得相当单调。

除了基础移动操作外,玩家几乎无事可做。没有任务目标,也缺乏音效反馈。更糟糕的是,输入延迟时有发生,甚至会出现角色失控、只能旋转视角的情况,严重影响整体体验的流畅度。

该记者还提到,在仅有 60 秒 的探索时间内,世界的一致性并不稳定。系统有时会“忘记”此前生成的内容,例如滚动的小球留下的颜料痕迹会突然消失,已生成的道路也可能被重新覆盖为草地。这些现象让人难以确认模型是否能够持续、可靠地维护同一个世界状态。

在内容生成层面,Project Genie 对知名游戏 IP 也存在明显限制。测试中,索拉、唐老鸭、高飞、杰克·斯凯灵顿等角色均无法直接用于生成可交互世界,相关内容在进入实际体验阶段会被系统拦截。

目前,与生成世界交互的智能体只能执行较为有限的操作,同一世界中多个模型之间也难以协同互动。此外,Genie 在渲染清晰文本、还原现实世界具体地点方面仍存在困难,智能体对控制指令的响应有时也会出现异常延迟。

对此,谷歌方面回应称,Genie 并非游戏引擎,团队更关注它在增强创意过程、提升构思能力以及加快原型制作方面所展现出的潜力。

在 Geinie 3 官网上也特别强调,目前产品仍处于早期研究阶段,因此会有:生成的世界可能看起来并不完全逼真,也不一定总是严格遵循提示、图像或现实世界的物理规律;角色有时可能难以控制,或者控制延迟较高;生成时间受限等问题。

Project Genie 团队深度揭秘关键问题

在 Project Genie 上线不久,其背后的核心团队第一时间接受采访,包括 Google DeepMind 研究总监 Shlomi Fruchter、Google DeepMind 的研究科学家 Jack Parker-Holder、产品 Diego Rivas,他们都对世界模型长期关注,在这次访谈中深度揭秘 Project Genie 的关键问题。

这次对话讨论了:什么是世界模型?为什么只能生成 60 秒?Project Genie 的研发历程是什么?它未来真正可能改变的是哪些领域?

他们首先承认 Project Genie 的强大确实源于谷歌视频生成技术的积累,但同时他们也强调,Genie 并不是更强的“视频模型”,而是人类第一次可以实时走进、操控、改变的生成世界。

其中的核心差异是,世界模型是逐帧实时生成,能与过去保持物理与视觉一致性,并且用户可随时干预。这对延迟、内存、算力的要求,比普通视频生成高得多,也是更前沿、更有挑战的方向。

针对不少人抱怨“60 秒不够”的问题,他们表示这是在服务成本、系统稳定性和体验质量之间做出的权衡。他们其实已经做出过更长时间的生成世界,但在实际测试中发现,随着生成时间拉长,世界的动态感反而会逐渐减弱。

研究员表示“与其花两分钟体验一个世界,不如花一分钟体验两个不同的世界,体验感会更好。”

针对模型的生成速度,他们表示已经够快了,短期内进一步“加速”并没有太大意义。接下来,他们更重要的研发方向,是降低算力成本,让这种能力能够被更多人真正用得起。

在产品定位上,他们并不把 Genie 看作一款游戏,而更像是一个正在快速演化的实验场:

  • 一方面,多人互动、长期一致性、复杂动态仍然是明确的技术瓶颈;

  • 另一方面,娱乐、教育、具身智能、机器人训练等方向,已经展现出非常清晰的应用前景

回顾产品研发历程,从论文阶段的 Genie 1,到今天普通用户可以亲自上手体验的 Genie 3,这背后其实是谷歌一整套高度协同的跨部门合作。

谷歌实验室与谷歌创意实验室是研发的核心力量,而服务团队、基础设施团队和沟通团队则共同兜底,确保这项起源于强化学习的前沿研究,能够被真实用户理解、体验并持续使用。

当团队回看去年八月时,他们很清楚,当时外界已经迫不及待想“走进这个世界”,但 Genie 仍然只是一个规模庞大的研究项目。即便如此,研发人员脑海中已经浮现出一系列潜在应用场景,其中最清晰的方向之一,正是具身智能。一个标志性的例子,是他们与 Simmer 项目的长期合作。

Simmer 是由双子座模型驱动的目标导向智能体,能够在 3D 世界中执行复杂任务。过去,它只能在少数几个固定游戏环境中训练;而现在,借助 Genie 3,只需一句文本指令,就能生成一个全新的、甚至是照片级写实的虚拟世界,把智能体直接“放进去”完成任务。

从 Nano Banana Pro 的图像创作,到谷歌视频生成的成熟,再到可交互的世界模型 Project Genie ,生成式技术正在构成一个连续体,世界模型将成为第三次技术跃迁。

以下是播客的更多细节,欢迎来看:

为什么只能 60 秒?

主持人:我很好奇,这背后的物理逼真度,是不是和我们在 VO(谷歌的视频生成模型)项目上取得的研究突破有关?感觉两者之间有相似之处。

研究员:二者绝对是相关的,而且世界模型的研发难度其实更高。普通的视频模型,能在整个视频的时间线上自由调整过去和未来的帧,自由度很高 —— 就像有一块画布,模型能随时间生成视频,在画面的各个位置做微调,让整体效果连贯美观。

世界模型的难点在于,世界是持续演变的,每一帧的输入都是未知的,模型必须保证生成的画面既和过去的内容连贯,又能匹配用户当下的操作,所以技术难度会大很多。

其实开发 Genie 1 时,我们用的是 Imagine 模型,当时我们的模型效果并不好,而且想要生成合适的图像也非常困难。Nano Banana Pro 是在Genie 3 之后推出的,技术进步的速度真的令人惊叹。也许未来某一天,我们定义虚拟世界的方式,将不再局限于图像和文本,但就目前而言,这种方式已经给了用户足够的创作灵活性。

主持人:这个模型的复杂度上限在哪里?比如能不能在同一个世界里加入大量并行的互动元素?模型会在什么情况下出现效果衰减?

其实 Nano Banana Pro 就是个很好的例子,如果一张图片里有 10 个人脸,想要对这张图进行编辑,模型就容易出问题。所以我想知道,Genie 3 的自然性能边界在哪里?

研究员:这个模型肯定不是完美的,目前它还只是一个研究预览版本。我们希望让大家亲自体验,看看它的优势在哪里,不足又在哪里,我们也能从用户反馈中学习和优化。

目前模型在各类创意环境的视觉呈现上做得不错,画面可以非常精致,但在世界的动态表现上还有短板 —— 有时候初期的动态效果很好,但时间久了,动态感会逐渐减弱,这也是我们正在优化的点。不过它的表现已经足够令人惊喜了,所以还是建议大家亲自上手试试,看看哪些玩法能达到理想效果。

研究员:不过说到延迟问题,还有很多技术点需要考虑。Genie 3 的研发有一个核心约束:我们希望实现特定操作频率下的实时低延迟,也就是说,用户操作的往返延迟要极低。同时,内存也是一个巨大的约束 —— 模型的上下文长度越长,通常算力成本就越高,运行速度也会越慢。

所以研发的核心挑战,就是平衡这些相互冲突的目标。而在研究层面,我们正在所有这些领域持续优化,我们相信,模型的性能会不断提升,变得更强大、更快、更经济,这也是行业的整体发展趋势。

主持人:我还有个问题,模型的生成时长是人为限制在 60 秒,还是真的能实现 3 到 5 分钟的连续生成?

研究员:其实我们已经做出过能连续生成更久的演示版本了,但我们觉得 60 秒是一个比较合适的时长 —— 既能让用户充分体验虚拟世界,又能保证为足够多的用户提供服务,这其实是在服务成本上做的权衡。

而且就像我们之前提到的,生成时间越长,世界的动态感会逐渐减弱。所以我们觉得,与其花两分钟体验一个世界,不如花一分钟体验两个不同的世界,体验感会更好。当然,如果用户反馈希望延长时长,我们也会做出调整。

这也和虚拟世界的类型有关,比如如果你在体验高山速降滑雪,两分钟的时长会很过瘾,因为整个过程是持续的动态体验;但如果只是探索图书馆,两分钟可能就没那么有趣了。

主持人:是啊,人们总是能很快适应新的技术体验。但对我来说,这个模型的表现依然令人难以置信。你之前被问到能不能让模型运行得更快,现在的速度已经到极限了吗?

研究员:在当前实时交互需求下,生成速度已经足够快,短期内进一步加速的意义不大。因为模型是实时生成虚拟世界的,速度再快其实也没有意义了 —— 它的生成速度已经和用户的体验速度完全匹配。接下来我们的研发重点,会放在降低算力成本上,这样才能让更多人用上这款产品。同时,在保持速度的前提下,不断增加新功能,这本身也是一个巨大的挑战,我们希望在各个方面都把模型做得更好。

背后的故事:谷歌跨团队协作

主持人:聊完当下的体验,我特别想知道模型的未来迭代方向。不过在聊未来之前,我们先回顾一下研发历程吧。我们八月份发布了 Genie 3 的首支演示视频,之后启动了可信测试,不断迭代产品、搭建基础设施。能不能跟大家快速讲讲,从一支惊艳的演示视频、小规模的早期测试,到正式推出面向用户的精灵计划,这中间都经历了什么?

研究员:首先,八月份发布模型和演示视频后,我们让一小部分人体验了产品,核心是为了收集反馈 —— 因为这是一款全新的应用,一种全新的体验,我们需要思考如何负责任地将它推向市场。

从那以后,我们的大部分工作都集中在基础设施、服务架构和成本控制上,毕竟我们希望能让尽可能多的用户体验到它。而美国的谷歌 Ultra 订阅体系,能让我们触达足够多的用户,收集到第一手的反馈:比如用户觉得哪些功能有用,会如何和产品互动,哪些玩法体验最好。这段时间里,我们也在持续完善可信测试项目。

这其实是模型开发周期中最核心的阶段,因为我们能从不同类型的用户身上学到很多东西,无论是创意工作者,还是教育领域的从业者,都能给我们带来丰富的洞察,让我们知道模型目前的实际应用价值、未来的发展方向,以及哪些体验是用户最期待的。

回头看八月份,当时我们知道大家肯定想体验这款产品,但它那时还只是一个大规模的研究项目。我们脑海里有很多应用场景,比如智能体、机器人这类具身智能领域,都能用到这项技术。去年年底还有一个和我们类似的项目发布,他们也用Genie 3 来训练游戏智能体。

从消费端的角度来看,我们觉得这个产品会很有吸引力,所以想收集用户反馈,但当时也不确定是否已经到了面向更多用户发布的时机。而迭戈主导的可信测试项目,让我们发现,用户第一次上手这款产品时,都会有惊艳的体验。我们希望深入了解更多的应用场景,所以这次的发布,也是我们在这方面迈出的一大步。

一年前,我根本没想到这个模型能有这么强的吸引力,但现在它已经成为一款非常有趣的产品,我们也很期待大家会用它来做什么。

主持人:聊完产品和技术,我们再来聊聊谷歌的跨团队合作吧。显然,从你们的分享和幕后工作来看,打造这款产品的难度非常大。谷歌内部有哪些团队参与了 Genie 3 和 Genie 的研发?

研究员:幕后参与的团队非常多,谷歌实验室、谷歌创意实验室是核心 —— 画廊里的那些虚拟世界,大多是创意实验室的作品;还有服务团队、基础设施团队,基本上有一个完整的幕后团队在推动这项工作。从八月份发布模型到现在,我们一直在全力冲刺,所有团队的付出都堪称英勇。

我们还和沟通团队深度合作,因为想要向大家解释一款全新的模型,一种大家从未体验过的技术,是一个非常细致的话题 —— 它起源于强化学习这个相对小众的领域,现在却被媒体、社交媒体上的各类人群广泛讨论,所以用正确的方式传递这项技术,非常重要。

回顾这个领域的研究起点,我们甚至不确定这项技术能否成功落地。而现在,我们让它实现了实时交互,达到了不错的画质,完成了从研究构想到发布模型,再到推出面向用户的体验产品的闭环,这一点让我非常兴奋。这并非理所当然,也充分体现了谷歌内部跨技术栈的团队协作能力,这种能力非常独特。

主持人:我们在镜头外还聊过,不仅是 Genie 3,谷歌所有模型的能力都在不断拓展,而这和模型的训练方式息息相关。杰克,你之前还尖锐地提到,这些模型其实并没有针对任何特定的应用场景进行训练,却能在各个领域实现很好的泛化能力,能不能再聊聊这一点?

研究员:没错,我们一开始其实并不知道这个模型的具体应用场景。去年年底,Genie 团队还在做纯粹的研究项目,Genie 1 最初只是一篇研究论文,和 VO(谷歌的视频生成模型)完全不同。

与此同时,我们还在做 Doom 游戏引擎的相关研究,这项研究充分展现了实时交互的潜力,但它仅适用于 Doom 这一个特定的游戏世界,迭戈可以再聊聊这一点。

另外,2024 年 12 月 VO(谷歌的视频生成模型)2 的发布,在 AI 领域已经是很久以前的事了,但当时我看到它的效果时就觉得,视频生成技术已经成熟了,视觉质量达到了行业前沿,值得我们深入探索。

于是我们达成共识,认为这项技术的潜力无限,随后组建了跨团队的研发小组,汇集了各个领域的专家 —— 他们都在不同的技术领域有积累,我们相信把这些技术结合起来,会产生不可思议的效果。而我们的研发,并非针对某个特定的下游应用场景,而是因为它蕴含着无数的应用可能。

最酷的是,我们脑海里有一些预想的应用场景,比如和 Simmer 项目的合作,我们和这个项目的合作已经有很长时间了,他们也参与了 Genie 2 的研发,体验过 Genie 2,现在已经基于 Genie 3 发布了相关产品。

Simmer 是我们最强大的目标导向智能体之一,能在 3D 世界中互动,是由双子座模型驱动的 —— 你可以在 3D 世界中向它输入文本指令,它就能完成各种不同的目标,泛化能力非常强,还能通过自我提升学习。这也是我们迈向通用人工智能、具身智能的重要方向。

去年年底我们发布了这款智能体,他们就用 Genie 3 的虚拟世界来探索智能体的能力。要知道,Simmer 原本只在几款游戏中接受过训练,但现在借助 Genie 3,你只需输入文本,就能创建一个全新的、甚至是照片级写实的虚拟世界,然后把智能体放进去,看它完成各种任务。这两个项目的结合,可以说是水到渠成。

未来的应用领域:娱乐、教育、具身智能

研究员:从应用层面来说,我个人对娱乐和教育领域的应用最期待。我们希望让更多人体验这款产品,看看凭借现有的技术,现在能打造出哪些应用。教育领域是我们重点关注的方向,比如让人们在虚拟世界里互动学习 —— 想象一下,能为用户打造一些他们在现实中无法体验的场景,比如一个孩子害怕蜘蛛,我们可以打造一个满是蜘蛛的房间,让孩子在虚拟世界里慢慢适应,克服恐惧。我的孩子就怕蜘蛛,所以我觉得这种个性化的全新体验,价值非常大,这也是我们近期的研发重点。

另一方面,我们之前也聊过,机器人技术和具身智能领域的世界模型,潜力也非常大。当然这个领域还有很多研究工作要做,但我个人对它充满期待。简单来说,核心思路就是:如果一个模型能模拟现实环境,那我们就可以用它在虚拟世界里训练机器人,或是让具身智能体在虚拟世界里学习,甚至实时辅助智能体做出决策。

Genie 计划虽然现在已经很惊艳了,但它只是一个起点。未来我们会和谷歌实验室继续深度合作,不断优化产品的功能、操控方式、应用架构等;也会拓展更多的使用场景,不局限于Genie 计划这一个应用,还会推出开发者 API,让更多开发者参与进来。

不得不说,开发者总能发掘出产品的商业价值,找到极具经济影响力的应用场景,这也是我觉得很有意思的一点 —— 除了娱乐,世界模型还能在哪些领域找到产品市场契合点。

而且很多功能在不同的应用场景中是相通的,比如更广泛的交互性。可以肯定的是,机器人技术的发展,不可能只靠方向键来实现,未来的机器人助手需要更多的操控方式,而这和虚拟世界的交互研发是相通的。

八月份发布 Genie 3,让我们成为首批推出这类模型的团队,也让我们能和谷歌内部的各个团队展开合作。我们会认真吸纳所有的用户反馈,把大家提出的建议都列出来,成为下一代模型的研发方向。我之前跟杰克说过,我们只实现了目标的 50%—— 因为我们总是会设定极具野心的目标,这个领域还有太多可以探索的地方,模型还有很多不足,需要我们不断优化。

这个领域的发展空间巨大,我们才刚刚起步。就像写论文一样,一个项目完成后,你马上就会想,下一个项目可以加入哪些功能,做得更好。

现在社区里也出现了很多有趣的世界模型,有些和 Genie 3 很相似,但我们的目光已经放得更远了。

怎么玩这个产品?

主持人:除了研发历程和未来规划,还有没有什么想跟大家分享的?比如对于即将体验这款模型的用户,你们有什么建议?毕竟你们比普通人花了更多时间研究和使用模型。

研究员:我建议大家尝试个性化创作,打造属于自己的、其他系统无法实现的世界。当然,用它打造游戏环境也很有趣,但这类场景其他系统也能做到;而把现实中的专属事物 —— 比如一个玩具、一张照片,或是让自己以特定风格出现在真实的环境中,这种体验是独一无二的。

这让我想起了 VO(谷歌的视频生成模型)早期的一个研究项目:有人用 VO(谷歌的视频生成模型)为阿尔茨海默病患者重现童年记忆,让他们在虚拟世界里重温过去,这个项目特别棒。所以我觉得,把个人专属的事物融入虚拟世界,让它们 “活” 过来,这种互动方式非常有价值,大家可以试试这个方向。

另外,大家肯定会发现,模型的提示词创作目前还不够完善,但这恰恰是机会。几年后当这个模型变得非常成熟时,大家会想起现在这个阶段,就像我们现在看待 VO(谷歌的视频生成模型)3 一样 —— 现在 VO(谷歌的视频生成模型)3 的每个提示词都能生成优质视频,精灵 3 号的每个提示词基本也能实现预期效果,但在早期,提示词的创作至关重要,甚至有人会花 10 到 20 分钟精心打磨一个提示词。

所以如果第一次创作的效果不好,别放弃,这款全新的模型,可能会以你意想不到的方式呈现出惊喜的效果。而且亲自上手体验,你就不是在消费一款产品,而是在探索前沿技术。

主持人:太认同了,“探索前沿技术” 这句话简直可以当作产品标语了。我还有一个觉得很有趣的点:当被动的媒体消费变成交互式的体验,会发生什么?这是一片全新的未知领域。过去也有人做过尝试,但现在有了这种真正定制化的交互式媒体叙事,它会给整个媒体和娱乐行业带来什么影响,真的太值得期待了。

研究员:还有一个玩法也很有趣,你可以在虚拟世界里设置挑战,把这个世界分享给别人,让对方完成任务,比如从 A 点走到 B 点。这是一种基础的、有目标的游戏体验,现在的模型已经能实现了。比如那个球的场景,你可以让别人用球写出自己的名字,这类简单的挑战都能设置。

就像杰克说的,现在的体验虽然还比较基础,但它蕴含着巨大的创意潜力。比如还有一个带环的场景,你可以操控角色穿越环道,体验飞行的感觉,这也是用户发掘的玩法。

人们还经常问,行业的前沿在哪里,我们下一步要做什么。我经常会做一件事:长时间沉浸在 Genie 3 的第一人称写实世界里,然后看向窗外,对比虚拟和现实的差距。我认为最终,虚拟世界会和现实世界变得几乎无法区分,虽然今天我们不深入聊这个话题,但从模型的性能发展来看,这显然还有很长的路要走。但如果能生成和现实高度逼真的世界,在里面自由移动、互动、完成各种事情,那该多不可思议。

而这也是驱动我们开展这项研究的核心愿景:想象你拥有一个宇宙的副本,你可以在其中随心所欲。显然,这个副本有巨大的应用价值,能用到很多领域。这虽然是一个非常远大、甚至可能无法实现的目标,但它就像北极星一样,一直指引着我们。

比如我们这次把恐龙鲍勃放进虚拟世界,其实就是在重构现实空间,给现实事物做有趣的增强。未来这方面的探索,一定会非常有意思。

主持人:那到 Genie 5 的时候,我们可能真的会分不清自己是在现实还是在模拟世界里了。

世界模型是第三次技术跃迁

主持人:我还有一个有点尖锐的问题想问问大家:你们觉得,大多数人体验到世界模型的时间线会是怎样的?世界模型会先通过企业端影响普通人的生活吗?比如企业利用世界模型提高生产效率,打造更好的日常产品;还是说,未来普通人的日常生活中,会直接和世界模型产生互动?如果是后者,这个时间线大概会是多久?

研究员:这其实取决于你如何定义世界模型。如果是指交互式的视听体验类世界模型,我认为今年、明年,就会有越来越多的人接触到它,我们也会看到它在一些领域大放异彩,最终成为很多应用的基础功能。

但就像现在的视频生成技术,虽然发展很快,但真正融入普通人日常生活的比例其实并不高,世界模型也需要时间来完成用户普及,找到合适的应用场景—— 毕竟视频和图像不同,世界模型又和视频生成不同。

而如果是具身智能领域的世界模型应用,很难给出具体的时间线,但这个领域已经在取得不错的进展了。

另外,用户的人群特征也很重要:有些经常接触交互式媒体的人,会成为世界模型的早期使用者,他们知道该如何体验;但如果把它交给一个对前沿技术不感兴趣的家人,他们可能会觉得无从下手,体验不到产品的魅力。

但具身智能相关的应用,可能在未来 1-2 年就会走进现实,普通人会在生活中直接接触到,所以最终的普及时间,还是取决于用户所处的技术接受曲线位置。

还有一点,Genie 计划也印证了一个趋势:生成式技术正在形成一个连续体,从 Nano Banana Pro 的图像创作,到 VO(谷歌的视频生成模型)的视频生成,再到现在Genie 3 的交互式实时媒体创作,成为第三个核心支柱。我们希望未来有更多人能体验到这个连续体上的各类创作体验。

主持人:我特别期待看到行业的发展趋势,毕竟 VO(谷歌的视频生成模型)和 Nano Banana Pro 的发展过程中,都出现过一些爆红的玩法,都是我从未预料到的,太疯狂了。

研究员:世界模型的发展,和图像、视频生成还有些不同。图像和视频生成的作品,能被数百万人观看,一个人的创作可以被广泛传播,家人、朋友都能看到;而世界模型的独特之处在于,你可以在探索的过程中,不断改变周围的世界,这开辟了很多我们未曾考虑过的新途径、新玩法。

图像和视频生成,本质上是用新技术替代或自动化了过去的一些创作方式,当然也带来了新的能力和限制;但世界模型,实现了很多过去根本不可能做到的事情,这是它最大的不同,当然二者也有很多相似之处。

还有一个我们非常兴奋的想法,大家在演示中也能看到端倪:用户可以在现有虚拟世界的基础上继续创作,这样就会形成很多有趣的世界分支,还能追溯创作源头。这方面的潜力非常大,值得我们深入探索。

Genie 计划上线时,用户可以下载自己的虚拟世界演示视频;未来我们还会探索更多的世界分享方式,让大家能以更有趣的方式在别人的世界基础上创作。

主持人:太酷了,我还想要一个 “世界档案” 功能,这样大家就能看到我所有的创意想法了。

从世界模型的发展来看,技术进步的节奏是怎样的?显然我们已经看到了巨大的进步,图像生成、VO(谷歌的视频生成模型)视频生成、核心双子座模型,都取得了长足的发展。世界模型是不是也在遵循同样的发展轨迹,到处都是触手可及的技术突破,同时受益于算力规模和推理能力的提升?

研究员:可以这么说。图像生成技术显然比视频生成更成熟,视频生成和世界模型之间的差距,我无法准确衡量,但可以肯定的是,世界模型是超越视频生成的前沿技术。

最新一代的视频生成模型,画质已经比Genie 3 高很多了,我们也不指望Genie 3 现在能生成极致精美的视频,因为实时交互的约束,是普通视频生成模型所没有的。所以世界模型的发展,可能会比视频生成稍慢一些,但它能带来全新的体验。

说实话,我们现在仍处于技术快速进步的阶段。硬件始终是一个巨大的约束,这对所有模型来说都是如此。行业的整体趋势是,在成本基本不变的情况下,让模型的运行效率越来越高。但最终,我们还是需要更易获取的硬件支持—— 比如希望未来人们能直接在自己的设备上运行这类模型,实现无延迟的即时体验。

目前高性能的 TPU、GPU 还并非人人可得,硬件的发展速度因为一些实际原因,会比模型研发慢一些,但这也是我们的未来方向 —— 希望到 Genie 5 时,大家能在手机上运行完整的通用模拟系统。

这一点我们也讨论过,谷歌拥有垂直技术栈的优势,这也是我们在谷歌、在深度思维工作的魅力所在:我们既能站在模型研发的前沿,又能利用谷歌最好的硬件来支持模型的运行。而且专门为世界模拟打造的硬件,本身也极具发展潜力,它就像通往另一个维度的入口,点击就能进入,充满了新鲜感。

传送门:

https://labs.google/projectgenie

链接:

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

https://deepmind.google/models/genie/

https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=4s

https://www.theverge.com/news/869726/google-ai-project-genie-3-world-model-hands-on?view_token=eyJhbGciOiJIUzI1NiJ9.eyJpZCI6ImZCakl0bmxFNGwiLCJwIjoiL25ld3MvODY5NzI2L2dvb2dsZS1haS1wcm9qZWN0LWdlbmllLTMtd29ybGQtbW9kZWwtaGFuZHMtb24iLCJleHAiOjE3NzAxNDAwNTYsImlhdCI6MTc2OTcwODA1OH0.q5OBTD_V36-65oc1EGqPxKYCZF00c7ODvifvagVcwbA&utm_medium=gift-link

作者|陈姚戈

世界模型领域迎来了一个重要开源模型。

今天,蚂蚁集团旗下的具身智能公司“蚂蚁灵波”,正式发布并开源其通用世界模型 LingBot-World。与许多闭源方案不同,蚂蚁灵波选择全面开源代码和模型权重,而且不绑定任何特定硬件或平台

去年 DeepMind 发布的 Genie 3,让人们看到了世界模型能够根据文本或图像提示,实时生成一个可探索的动态虚拟世界。LingBot-World 沿袭了这条路线,并在交互能力、高动态稳定性、长时序连贯性以及物理一致性等维度取得了突破。

更令人惊喜的是,LingBot-World 呈现出从“生成”到“模拟”的跨越。随着模型规模的扩大,灵波团队观察到,LingBot-World 开始表现出远超普通视频生成的复杂行为,涌现出对空间关系、时间连续性和物理规律的理解。

可以看到,鸭子腿部蹬水的动作、水面对扰动的响应、以及鸭子身体与水之间的相互作用都比较符合物理规律。

这显示出模型不仅记住了视觉表象,还在某种程度上理解了流体力学等基础物理机制。同时,水面对扰动的反应,显示出模型对因果关系的理解。

用户切换视角后再回来时,环境中的智能体(比如这只猫)仍能保持持久记忆。智能体即使没有被观察到,也能持续行动。这确保了当视角回归时,世界状态会自然推进。

当环境中智能体(这只猫)碰到沙发后,没有穿透沙发,反而向空地走去。可以看到,LingBot-World 遵循了空间的逻辑,让智能体运动具有物理的合理性。

这是一个长达 9 分 20 秒的视频,没有经过任何剪辑和拼贴。视频为用户第一视角,从一座破旧的古希腊神庙出发,沿城市小径前行,经过一座新古典主义建筑,再向左进入一片复原的古希腊建筑群。

在近十分钟内,画面保持了较为稳定的物理状态和视觉质量,这在目前的视频生成模型和世界模型中都比较罕见。

不过,在视频最后几分钟,建筑之间的位置关系似乎被模型遗忘了。在 7:00,新古典主义建筑和复原式古希腊建筑群是连接在一起的;但 7:31,从复原式古希腊建筑群望向新古典主义建筑时,新古典主义建筑消失了。8:30 回到新古典主义建筑时,它成为了一栋孤立的房子。

尽管存在这些细节瑕疵,LingBot-World 的进步依然显著——单次生成接近 10 分钟的连贯视频,很可能刷新了当前视频/世界模型的长度纪录。作为对比,Veo 3 和 Sora 2 的单次生成上限分别为 8 秒和 25 秒,Runway Gen-3 Alpha 为 40 秒,Kling 最长支持 2 分钟。

与其他交互世界模型相比,LingBot-World 在开源、提供 720p 分辨率的情况下,还保证了高动态程度和长生成跨度。

在 VBench 测试中,LingBot-World 全面领先于 Yume-1.5 和 HY World-1.5 等先进开源模型,证明了自己不仅是一个视频生成器,更是一个强大的交互式模拟器。通过接收用户输入的动作指令,它能够生成高度动态且物理一致的视觉反馈,保持在高动态度下的整体一致性,使视频内容在长时间段内始终与最初的提示保持一致。

在看到大语言模型的局限后,世界模型成为火热赛道。Google、李飞飞、Yann LeCun 以及众多科学家纷纷指出,LLM 无法很好地理解物理世界、因果关系,而“世界模型”是 AI 走向真实物理世界深度理解的一个解。

至于“世界模型”究竟该长什么样,行业至今尚无统一标准。

李飞飞的 Marble 正专注理解空间关系;英伟达把世界模型细分为预测模型、风格迁移模型、推理模型;DeepMind 团队的 Genie 3,则试图在同一个模型中,实现端到端的实时渲染。

路线的分歧,也反应了行业需求的多样性,以及寻找解决方案的困难——无论是智能驾驶、具身智能,还是游戏,都在寻找各自需要的智能方案,以及合适的开发范式和入口。

蚂蚁灵波的世界模型方案更接近 Genie 3,旨在成为一个通用模型,为 Agent、具身智能、游戏、仿真等领域提供理解世界物理规律的基础设施平台。

通过开源其训练方法、模型权重等内容,蚂蚁灵波不仅展示了其在具身智能领域的战略布局,也为行业提供了探索世界模型更多可能性的契机,帮助降低验证世界模型的门槛。

这一周,蚂蚁灵波对外集中发布和开源模型研究成果,相继发布并开源空间感知模型 LingBot-Depth、具身大模型 LingBot-VLA。

如今,随着 LingBot-World 的发布,蚂蚁灵波正从幕后走向台前。蚂蚁灵波的目标是打造一个开放、通用的智能基座,与越来越多行业和厂商共建生态。这一次,它用开源的方式,向世界抛出了自己的世界模型范式。

构建世界模型的梦想和努力

在深入探讨蚂蚁团队通用世界模型的细节之前,我们需要花点时间,回顾一下 1990 年世界模型的开始。这将帮助我们更清楚地理解过去 30 多年中“世界模型”研究的变与不变、当前世界模型技术路线之争的焦点,从而更好地理解蚂蚁是在怎样的方向和基础上努力。

世界模型 40 年,变与不变

1990 年,强化学习领域奠基人、2024 图灵奖获得者 Richard S. Sutton 在人类认知学习过程的启发下,在论文《Dyna, an Integrated Architecture for Learning, Planning, and Reacting》中提出了一个开创性架构:智能体不应只靠真实世界试错学习,而应构建一个内部世界模型,在“脑海”中模拟动作后果,低成本地进行规划与策略优化。

图片来自 Dyna 论文。

图片呈现的是 Dyna 框架的核心逻辑,智能体的目标是最大化其在时间维度上累积获得的总奖励。

在 Dyna 框架中,世界模型也被称为动作模型,它被视为一个“黑盒子”,输入当前的情境和动作,输出对下一个情境和即时奖励的预测。模型的作用是模拟现实世界,Agent 通过与现实世界的持续互动产生经验,并利用这些经验通过监督学习方法来改进模型,使其更接近真实的物理规律。

在 2026 年回顾这篇 36 年前的论文,会发现这份古早的研究为理解当下复杂的技术路线之争提供了共同的根基——

对世界模型的探究,起源于对人类、机器,以及更广泛的智能体如何学习和行动的好奇。

而“世界模型”作为一种方法,提出的解决方案是在模拟出的世界中,让智能体学习、行动、获得反馈和迭代。

Dyna 这篇论文的核心理念,成为了今天世界模型的研究的底层思路。

不管是 NVIDIA Cosmos、World labs、Google Genie,还是 LingBot-World,都沿袭了 Dyna 的核心理念:世界模型是为智能体提供“模拟经验”的内部环境,使得智能体可以在一个虚拟的环境中进行规划和策略训练。

在不同方向的探索中,我们可以得到的共识是:世界模型从多样化的输入数据中学习对真实世界环境的内部表征,包括物理规律、空间动态和因果关系等。这些表征帮助模型预测未来状态,模拟动作序列,并支持复杂的规划与决策,而不需要反复进行真实世界的实验。

36 年过去,我们正站在大语言模型的阴影和语境中讨论世界模型。LLM 在理解真实物理世界、及模拟/预测未来后果等方面的局限,正加速科研和商业领域对世界模型的探索。

在 2025 年的一次访谈中,Dyna 的创作者 Richard S. Sutton 强调,LLM 已经走到了瓶颈。他指出,LLM 的核心缺陷在于,它们仅仅是在模仿人类行为,而无法理解世界、预测现实世界中的未来事件。他提倡放弃基于 LLM 的路径,转而开发基于强化学习、拥有世界转换模型(Transition model of the world)。这种世界模型不仅能学习奖励,还能从所有感官信息中获取环境的丰富理解,最终能够预测“如果做某事,后果将是什么”。

大语言模型在理解真实物理世界的不足,以及模拟/预测未来后果的不足,让一批科学家转向,在世界模型中寻找解法。

李飞飞认为 LLM 缺乏对物理世界的感知,提出“空间智能”(Spatial Intelligence)是 AI 的下一个北极星,AI 需要理解三维空间、几何、物理规则以及因果关系,才能从“理解文本”迈向“理解并作用于物理世界”。

Yann LeCun 则批评 LLM 依赖文本概率预测,感知学习世界的方式背道而驰。为此,他推广 JEPA(联合嵌入预测架构),并成立 AMI Labs,通过世界模型的路径实现 AGI,探索如何让 AI 系统具备理解物理世界、持久记忆、逻辑推理以及复杂任务规划能力。

DeepMind 联合创始人兼 CEO Demis Hassabis 在今年 1 月的对谈节目中强调,目前的 AI 系统还不能理解物理世界、因果关系、行为如何影响结果,而精确的世界模型是实现科学发现或理论创新的关键。他表示,Genie 这样的模型还只是“胚胎期世界模型”,Genie 体现出的,生成关于世界的内容的能力,某种程度上体现了模型理解了世界的知识。

Google AI 团队深度押注了世界模型的发展,并认为它会在 2026 年赢得重大发展。Hassabis 在谈及 2026 年的突破和期待时提到,“最令我兴奋的,莫过于进一步推动‘世界模型’的发展,提升其运行效率,从而使其能够真正被用于我们通用模型中的‘规划’环节。”这可能意味着,未来世界模型将融入 Gemini 这样的基础模型中。

世界模型的路线分歧

在探索 AGI 的道路时,蚂蚁集团也看到了世界模型的潜力。

作为蚂蚁集团旗下的具身智能企业,蚂蚁灵波的定位是“智能基座公司”,致力于打造一个能够理解世界、物理规律以及时空演化的 AI 系统。而世界模型正是实现这一目标的重要方式之一。

尽管各方都将世界模型视为未来的关键技术,然而不同公司选择的路径却各不相同。总体上,这些路径可以分为生成式和非生成式两类,两种路径的核心区别在于预测空间。

NVIDIA Cosmos、DeepMind Genie 和 World Labs 都是生成式路径的代表。

Cosmos 和 Genie 主要使用由像素构成的观测空间,利用大规模高维视觉数据训练,通过特定的时空架构设计,让模型产生对三维物理世界的理解。Genie 3 官网中特别提到“Genie 3 的一致性是一种涌现能力……Genie 3 生成的世界更为动态和丰富,因为它们是基于世界描述和用户动作逐帧创建的。”

World Labs 则另辟蹊径,将预测空间设定为在 3D 空间中带有位姿的帧,通过查询待生成帧的位姿来生成新图像。其发布的 RTFM 模型表明:“模型对世界的记忆(存储在各个帧中)具备了空间结构;它将带有位姿信息的帧视作一种‘空间存储’,这赋予了模型一种弱先验——即所建模的世界是三维欧几里得空间,而无需强迫模型显式预测该世界中的物体几何结构。”

非生成路径的代表是 Yann LeCun 的联合嵌入预测架构(Joint Embedding Predictive Architecture, JEPA)。JEPA 通过编码器将输入转化为潜空间(Latent Space),并在该空间内预测未来抽象表征(Embeddings),从而无需进行像素级的重建。

蚂蚁灵波的 LingBot-World 选择了类似 Genie 的路径,试图在此基础上解决从视频生成到世界模拟之间的技术障碍。

拆解 LingBot-World

在前文的案例和分析中,我们看到蚂蚁灵波的 LingBot-World 沿袭了 Gienie 的生成式路线,同时在交互能力、高动态稳定性、长时序连贯性以及物理一致性上表现惊艳。

在此基础上,蚂蚁灵波选择开源代码和模型权重,并在论文中完整披露了从数据采集到训练部署的全链路设计,鼓励社区测试、使用和复现。

即使是在近 10 分钟的超长视频中、或是快速运动下,画面中的物体依然保持了较为稳定的几何物理特性,没有出现视频生成模型常见的崩坏。这种稳定性,源于其独特的数据引擎和模型架构设计。

数据引擎

许多从视频生成模型切入世界模型研发的团队,很快会撞到数据瓶颈。

互联网上浩如烟海的短视频大多是“被动”记录,缺乏因果链条。对于世界模型而言,它需要理解的是动作和后果之间的关系。

比如:“按下 W 键向前走,门是否会打开?”“绕到建筑背面,窗户是否依然存在?”这类智能体动作与环境反馈之间的因果闭环,在普通视频中几乎不存在,在真实世界中规模化采集的成本也很高。

为了构建“动作-反馈”的闭环,LingBot-World 打造了从采集、处理到标注的流程。

LingBot-World 的数据包含通用视频、游戏数据和合成渲染数据,以确保训练语料的丰富性、高质量和交互性。为游戏数据,灵波团队还开发了专门的平台,捕获 RGB 帧并严格对齐用户的输入和相机参数。合成数据由 Unreal Engine 生成,带有精确相机数据和自定义轨迹。

LingBot-World 数据处理和标注流程

在数据处理层面,灵波团队首先对原始视频进行质量筛选与切分,生成结构清晰的视频片段;然后借助 VLM 视频的视觉质量、场景类型和视角等,结合几何标注提供必要的 3D 结构先验,产出元数据。

在此基础上,团队引入三种不同粒度的描述标注,涵盖视频全过程的宏观描述、去除了动作和相机数据的静态描写,以及带有时间标注的描述。

模型构建和训练

LingBot-World 将世界模型定义为一个条件生成过程,模拟由智能体动作驱动的视觉状态演化。

从模型构建和训练过程,我们可以看到,LingBot-World 是从“视频生成模型”起步,通过不同阶段训练,让模型从“生成”走向“模拟”。

从目标函数上看,这种模拟本质上是一种概率预测

LingBot-World 的目标函数明确表达了这一思想:

$$\max_\theta \sum_{t=1}^{T-1} \log p_\theta(x_{t+1} | x_{1:t}, a_{1:t})$$

即在最大化给定历史帧 ($x_{1:t}$) 和动作序列 ($a_{1:t}$) 的条件下,预测下一帧状态 ($x_{t+1}$) 的似然概率。

简单来说,就是让模型学会根据过去看到的画面和执行过的动作,尽可能准确地预测下一帧画面。

为了避免直接从零训练导致的计算开销和模式崩塌,LingBot-World 采取了分阶段的训练策略。

预训练负责建立稳健的通用视频先验,确保高保真开放域生成;中训练注入世界知识和动作可控性,使模型能够模拟具有一致交互逻辑的长期坚持动态;后训练使架构适应实时交互,采用因果注意力和少步蒸馏以实现低延迟和严格因果性。

LingBot-World 模型训练流程。

从“生成视频”到“模拟世界”,LingBot-World 带来的可能性

LingBot-World 的意义绝不仅在于生成一段精美的视频,而在于它提供了一个高保真的物理交互沙盒,成为具身智能、自动驾驶与虚拟现实等下游任务的通用基础设施。

LingBot-World 最直观的突破在于它赋予了通过自然语言控制模拟过程。例如,通过输入“冬季”或“夜晚”,模型会渲染出城堡结冰或夜晚灯光变化的物理效果,同时支持向“像素风”或“蒸汽朋克”等风格的切换。还可以在具体场景中精确注入特定物体。例如,在城堡上空触发烟花,或在喷泉中生成鱼和鸟。

在环境中生成烟花效果

改变环境整体风格

在自动驾驶训练中,这种能力极具价值。算法团队可以人为制造“鬼探头”、极端天气或突发交通冲突,构建出严苛的因果推理环境,从而低成本地解决智驾中的长尾问题。

深层物理特性的稳定性,则为这种模拟提供了实际应用的底座。得益于模型展现的长程记忆,生成的视频序列具备了较高的 3D 一致性,这使得视觉信息可以直接转化为场景点云,从而服务于 3D 重建或高精度仿真任务。

LingBot-World 具有很好的 3D 一致性。可以看到,视角变化的情况下,房间结构和物理性状仍然保持稳定。

这种稳定性试图触及具身智能训练中的一个核心痛点:机器人的导航或复杂操作往往涉及跨越长时序的决策序列。LingBot-World 展现的 10 分钟级别生成能力,在理论上为多步骤任务提供了更稳定的物理一致性。如果这种长程模拟能有效控制累积误差,将有助于机器人在虚拟环境中进行高频次、深度、低成本试错。

在此基础上,LingBot-World 与 LingBot-VLA(视觉-语言-动作模型)的结合,勾勒出了一种具身大脑的闭环方案。在这种设定下,世界模型充当了机器人的“内部模拟器”:在 VLA 模型输出最终指令前,系统可以在虚拟空间中先行演练不同的动作轨迹,评估其物理后果,从而筛选出更符合物理规律且具备安全性的执行路径。

令人惊喜的是,利用训练 LingBot-World 的数据,蚂蚁灵波团队还微调出了动作智能体。智能体可以被置于 LingBot-World 打造的环境中,Agent 的动作改变会实时重塑环境状态,而环境的演变则反过来决定 Agent 的下一步决策。

灵波团队利用 LingBot-World 相同数据训练处的自主智能体,能在生成的世界中自主规划并执行动作。

这种互动揭示了世界模型在“模拟沙盒”之外的另一种可能——它不仅能理解环境对智能体变化的响应,也具备预测智能体动作流的能力。

这意味着,世界模型未来或许不仅仅是训练智能体的工具,也有可能成为驱动智能体(包括机器人)的底座。

项目官网:

https://technology.robbyant.com/lingbot-world

论文连接:

https://arxiv.org/abs/2601.20540

代码和模型权重下载:

https://github.com/robbyant/lingbot-world

https://huggingface.co/robbyant/lingbot-world

https://www.modelscope.cn/models/Robbyant/lingbot-world-base-cam

当 AI 开始行动,人类第一次需要重新定义“参与者”这个词。

引言:2026,不是升级年,而是转向年

过去几年,人们习惯用参数规模、算力消耗、模型榜单来衡量 AI 的进步。但进入 2026 年,这套判断体系正在迅速失效。

因为 AI 正在发生一次根本性转变——
它不再只是被调用的模型,而是开始以“智能体”的形态参与现实运行。

这意味着一个全新的事实正在形成:
AI 不再停留在“生成内容”,而是进入了目标理解、任务规划、工具调用、结果评估与持续修正的闭环之中。

2026 年,并不是 AI 更聪明的一年,而是 AI 开始“做事”的一年。
这也是为什么越来越多的人,将这一年称为——AI 元年


一、从模型到智能体:AI 范式的真正跃迁

大模型时代的 AI,本质上仍然是“静态系统”:

  • 能回答,却不负责
  • 能生成,却不执行
  • 能推理,却不行动

而智能体的出现,改变的是 AI 与世界的关系

智能体具备三种关键能力:

  1. 目标导向:理解“要做什么”,而不是只理解“问了什么”
  2. 过程管理:拆解任务、选择路径、调用外部工具
  3. 自我修正:在失败中调整策略,而非一次性输出

这标志着 AI 从“认知系统”转向“行动系统”,
从“辅助工具”转向“代理单元”。

AI 开始拥有事实上的“意图”和“代理权”。


二、新赛道的形成:智能体不是产品,而是系统变量

2026 年的竞争,不再是“谁的模型更大”,而是谁能率先构建智能体驱动的新赛道

这条赛道的形成,依赖三个核心支点。


1️⃣ 能力支点:多模态与具身智能的成熟

真正的智能体,必须能够同时理解和作用于 物理世界与数字世界

这意味着它不仅能处理文本,还需要具备:

  • 对空间与环境的理解
  • 对人类情绪与意图的感知
  • 对现实操作结果的反馈能力

当视觉、语言、动作、环境建模逐步融合,
AI 才第一次具备“知道自己在做什么”的能力。


2️⃣ 生态支点:智能体不再是孤立存在

单个智能体的能力始终有限,
真正的爆发来自 可组合、可协作的智能体生态

2026 年,一个新的趋势正在显现:

  • 专业智能体被模块化、商品化
  • 智能体之间通过协议协作
  • 用户不再下载 App,而是“订阅能力”

这将催生一种全新的数字劳动经济——
由智能体构成的生产网络,而非人类操作的软件界面。


3️⃣ 信任支点:治理开始成为刚需

当 AI 具备行动能力,问题不再是“准不准确”,
而是:

  • 谁授权?
  • 谁负责?
  • 如何中断?

2026 年,围绕智能体的身份认证、权限分级、行为审计、责任归属,正在成为全球共识议题。

这意味着:
智能体赛道的竞争,不只是技术之争,更是治理能力之争。


三、人类角色的重构:从操作者到协作者

智能体的出现,并不等于“AI 取代人类”,
而是迫使我们重新回答一个问题:

人类究竟负责什么?

当重复性决策、流程化任务、信息整合逐步由智能体接管,人类的核心价值正在上移到三个层面:

  • 设定目标(What to do)
  • 判断意义(Why it matters)
  • 承担责任(Who is accountable)

未来的工作模式,不再是“人指挥工具”,
而是 “人 + 智能体团队” 的协作结构

医生、教师、管理者、研究者,都将与智能体并肩工作——
不是被替代,而是被重新定义。


四、三条正在分化的智能体赛道

随着智能体能力成熟,赛道正在出现清晰分化。

▍赛道一:专业智能体 —— 行业能力的放大器

它们不取代专家,而是成为专家的延伸:
在金融、医疗、制造、科研等领域,放大认知与决策效率。


▍赛道二:个人智能体 —— 个体能力的外延

这是属于每个人的数字分身:
理解你的偏好、记忆你的选择、协助你管理复杂生活。

它改变的不是效率,而是 “自我”的边界


▍赛道三:社会智能体 —— 复杂系统的协调者

在城市、能源、供应链、环境治理中,
智能体开始用于模拟、预警、协调,而非直接决策。

它们不掌权,但提供洞察。


五、智能体时代的文明挑战

当技术具备行动力,文明就必须给出边界。

智能体时代带来的,不只是产业问题,更是文明命题:

  • 主权问题:哪些决策必须保留给人类?
  • 责任问题:失误由谁承担?
  • 身份问题:当人类与智能体深度协作,“我”如何被定义?

这些问题没有现成答案,但已经无法回避。


结语:真正的开辟者,理解的不只是技术

2026 年,AI 元年的序幕已经拉开。
智能体不是风口,而是新的基础设施

真正的赛道开辟者,不只是工程师或创业者,
而是那些同时理解:

  • 技术边界
  • 人类价值
  • 社会结构
  • 文明走向

的人。

AI 的终点,从来不是替代人类,而是重新照见人类。
而 2026 年,正是这条新道路的起点。
本文章和图片由AI辅助生成

前言:如果说 2023 年是“大模型”的破壳时刻,那么 2026 年则被科技界正式定义为 “智能体(AI Agent)元年”。这一年,AI 完成了从“只会聊天的计算器”到“能办事的数字员工”的跨越。一场关于行动力、自主权与新赛道的产业革命已然拉开序幕。

一、 范式跃迁:从“静态生成”到“动态执行”


2026 年,我们正见证 AI 逻辑的根本性扭转。过去,大模型以“知”见长,而现在的智能体以“行”取胜。

  • 自主决策的闭环: 智能体不再是被动等待指令的对话框,而是具备目标感知、环境交互与任务规划能力的“数字生命”。
  • 具身智能的延伸: 通过多模态模型的融合,智能体开始走出屏幕,深入到自动驾驶、智能制造以及复杂的个人事务处理中,实现了从“辅助工具”到“行动主体”的质变。

二、 赛道开辟:2026 产业生态的三大爆发点


在这一条全新的赛道上,三根核心支柱正支撑起万亿级的市场空间:

1. 智能体原生市场的形成

如同当年的 App Store 改变了移动互联网,2026 年的“智能体市场”成为了新的流量入口。开发者不再仅仅提供算法,而是发布具备专业技能(如理财顾问、代码架构师、健康管家)的独立智能单元。

2. 跨系统协同的“数字劳动力”

智能体之间开始学会“对话”。通过标准化的协作协议,不同的智能体可以像人类部门一样相互配合,完成从市场调研到方案落地的一站式自动化办公。

3. 可信治理与责任伦理

随着 AI 拥有了代理权,2026 年也成为了“AI 治理元年”。全球范围内关于智能体身份认证、行为审计与权限分级的法律框架基本成型,为新赛道的狂飙突进安上了“安全阀”。


三、 角色再造:人类从“操作员”转型为“协调者”


智能体的普及并非对人的取代,而是对人类价值的重新定义。在 2026 年的工作流中,人类的角色发生了以下转变:

人类设定目标(What to do)- 智能体规划路径(How to do)

人类判断价值(Why it matters)- 智能体执行交付(Get it done)

未来的核心竞争力,不再是你会不会写代码或画图,而是你是否具备“智能体调度能力”——即如何高效地管理一群 AI 智能体来达成复杂的商业目标。


四、 结语:开辟者,终将定义未来


2026 年,大幕已启。智能体来了,它带来的不仅是技术的迭代,更是一次文明层面的协作升级。在这条新赛道上,先行者正在重塑行业逻辑,而跟随者也将在 AI 原民的时代找到新的生态位。

这或许就是“智能体元年”最深刻的启示:技术的终点,永远是人的升华。

本文章和图片由AI负责生成

随着人工智能(AI)技术的不断进步和广泛应用,AI已经渗透到金融、医疗、制造、自动驾驶等多个行业。尽管AI带来了巨大的创新和效率提升,但随着其应用范围的扩大,AI的安全性问题也逐渐暴露出来。AI应用安全不仅仅局限于算法模型的本身,更多的是涉及数据隐私、对抗攻击、模型滥用、合规性问题以及垂直行业应用中的特殊风险。因此,企业需要全面识别并应对这些AI应用中的潜在风险,构建健全的AI安全管理体系。

一、AI应用安全的核心挑战
AI应用的安全风险源自多个层面,既包括算法层面的风险,也涉及数据、系统、法律等多维度的安全隐患。
1.1 AI模型算法滥用风险
随着AI生成内容的普及,模型算法的滥用已成为迫切需要解决的安全隐患。特别是在生成式AI领域,AI模型可能被用来生成虚假信息、深度伪造内容等,直接影响社会舆论,甚至对企业造成直接经济损失。

  1. 虚假有害信息的传播:生成的AI内容可能被恶意用于传播虚假信息、误导公众、制造恐慌或进行欺诈活动。例如,某些不法分子利用AI生成的新闻报道或虚假视频,制造社会不稳定因素。
  2. 多模态深度伪造的风险:深度伪造技术融合了视频、音频、文本等多模态内容,生成高度逼真的虚假信息。这类攻击不仅可能带来经济损失,还会破坏公众的信任基础,影响法律和社会规范的实施。
  3. 模型透明性不足:AI应用在实际运行中,许多模型尤其是复杂的深度学习模型,往往缺乏足够的透明度,用户无法理解模型的决策过程。这种“黑箱”性质不仅增加了用户的使用风险,也使得当出现错误决策时,问题难以被迅速定位和解决。

1.2 AI应用开发安全风险
AI应用开发不仅仅是技术问题,还涉及硬件、软件以及协同环境的整合,这就使得AI开发中的安全风险更加复杂和多样化。

  1. 端侧AI安全风险:在边缘计算环境中,由于端侧设备的硬件限制,AI模型可能需要进行压缩或优化,这样的处理虽然可以提升运行效率,但也可能导致模型的鲁棒性和安全性下降,出现性能下降或“安全税”现象。此外,端侧部署通常要求在设备端实现实时推理,并依赖云边协同架构进行模型更新和任务调度,这也带来了异构硬件兼容性和网络延迟等潜在风险。
  2. 智能体的安全风险:AI智能体是由AI模型驱动的自主系统,能够执行复杂任务。随着AI智能体与外部环境的不断交互,智能体的安全风险也在增加。攻击者可能通过篡改协议或利用自主决策链路的不可预测性,导致智能体做出错误决策,从而产生安全漏洞。
  3. 具身智能的安全隐患:具身智能涉及到现实世界中的物理行动,其安全风险不容忽视。传感器设备可能泄露个人信息,具身智能体的物理行为可能被恶意攻击者控制,从而导致人身伤害或财产损失。例如,服务机器人操作不当,或自动驾驶汽车发生事故,都是具身智能安全风险的典型表现。
  4. 智能物联网(AIoT)安全:智能物联网设备融合了AI算法与物联网的物理特性,部署在受限的边缘环境中,面临着传感器噪声、物理攻击、以及复杂环境干扰等问题。与传统物联网设备相比,AIoT还面临着AI特有的安全威胁,如对抗样本攻击、训练数据投毒和模型窃取等问题。

1.3 AI垂直行业应用的安全风险
AI技术在垂直行业的应用,虽然带来了行业的革新,但也带来了独特的安全风险。不同的行业面临的AI应用安全问题各具特点。

  1. AI在医疗行业的安全风险:AI在医疗领域的应用极大地提高了诊断效率和精确度,但也伴随着巨大的技术与伦理风险。训练数据的偏差、系统漏洞可能导致医疗设备发生错误,甚至误诊。此外,AI系统在处理敏感的患者信息时,若未采取充分的加密与权限管理,可能会导致患者隐私泄露,进而带来法律与伦理上的问题。
  2. AI在新闻领域的滥用风险:随着AI生成内容技术的普及,新闻行业面临着虚假新闻传播的风险。某些不法分子可能利用AI模型生成虚假报道、伪造证据,借此操纵舆论或进行诈骗活动。如何确保生成内容的真实性与可信度,成为新闻行业亟待解决的安全挑战。
  3. AI在金融行业的安全风险:金融行业的AI应用包括身份验证、交易监控等多个方面,面临着深度伪造技术带来的身份验证问题。攻击者通过深度伪造技术伪造身份信息,可能突破金融机构的身份核查系统,实施盗刷或恶意注册等欺诈行为,造成极大的经济损失。
  4. AI在编程领域的安全风险:AI辅助编程不仅提高了开发效率,但也带来了代码安全隐患。AI生成的代码可能存在常见漏洞(如SQL注入、跨站脚本攻击等),同时AI生成的代码缺乏架构设计,可能导致后期维护困难。由于过度依赖AI生成的代码,开发人员可能减少了必要的人工审查,从而放大了潜在的安全风险。

二、AI应用安全的解决方案与应对措施
针对上述AI应用中的安全风险,企业需要采取多维度的防护措施,构建全方位的AI安全管理体系。
2.1 提高模型的鲁棒性和透明性
为了应对AI模型的滥用风险,企业应加大对AI模型的鲁棒性和透明度的建设。例如,采用对抗训练增强模型的抗干扰能力,采用可解释性AI(XAI)技术提升模型的透明度,帮助用户理解决策过程,从而降低不当信任的风险。
2.2 强化数据保护与隐私管理
在AI应用过程中,数据是最核心的资产之一。企业应实施数据加密、访问控制、数据脱敏等技术,确保数据的隐私性和安全性。此外,企业应遵守相关的法律法规,如GDPR等,确保数据使用的合法合规。
2.3 强化安全检测与监控
企业需要在AI模型开发与应用过程中加入安全检测与监控机制,实时发现潜在的安全隐患。例如,利用自动化工具扫描AI模型的依赖组件,识别潜在漏洞,及时修复,并部署AI安全监控系统,实时监控模型的运行状态和异常行为。
2.4 建立合规性框架
AI应用不仅要在技术上保障安全,还需要满足法律法规的合规性要求。企业应构建全面的AI合规性框架,制定AI应用的合规性审查标准,确保AI技术在法律法规框架下运行。

三、艾体宝Mend价值
Mend通过其全面的软件组成分析(SCA)与依赖治理功能,在模型安全方面发挥了关键作用,帮助企业应对AI模型开发、训练、部署和维护过程中面临的安全挑战。具体价值体现在以下几个方面:

3.1 识别和治理AI应用依赖中的安全风险
AI应用往往依赖于多个开源库和第三方组件,而这些组件可能带有安全隐患。Mend通过自动化的SCA工具,能够深入识别和分析AI应用中所依赖的开源库及第三方组件,实时扫描每个依赖组件的安全风险。无论是AI平台、训练框架、容器镜像,还是MLOps流水线中的每一层,Mend都能够精确检测出潜在的漏洞、许可证问题和版本不兼容等安全风险。企业可以借助Mend的实时扫描功能,提前识别并解决这些隐患,避免将不安全的依赖组件引入AI应用,从而减少因依赖漏洞带来的应用安全风险。

3.2 构建透明的SBOM体系,确保合规性
AI应用不仅需要从技术层面防护,还必须符合相关的合规要求。Mend帮助企业构建和管理全面的安全SBOM(软件物料清单)体系,生成覆盖整个AI应用栈的SBOM清单。这一清单为合规审计、漏洞报告和监管备案提供了透明和准确的数据支持。通过Mend的SBOM工具,企业能够清晰地掌握AI应用中每个组件的来源、版本及其安全状况,从而确保模型和应用的安全性与合规性,避免因信息不透明而引发的法律和合规问题。通过这种全面的管理,Mend帮助企业在复杂的合规环境中确保AI应用的合法性与合规性。

3.3 防范对抗攻击与漏洞利用
Mend通过对AI模型进行真实的红队模拟交互,模拟攻击者的行为,测试模型对恶意输入、提示词注入以及其他对抗攻击的防御能力。Mend通过模拟各种可能的攻击情境,实际验证模型在面对各种恶意输入时的响应能力和稳定性。通过这种方式,Mend能够识别出潜在的安全漏洞,并提供针对性的防御策略,帮助企业提前发现并修复可能被攻击者利用的弱点。

1 月 29 日,继连续发布空间感知与 VLA 基座模型后,蚂蚁灵波科技再次刷新行业预期,开源发布世界模型 LingBot-World。该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上均媲美 Google Genie 3,旨在为具身智能、自动驾驶及游戏开发提供高保真、高动态、可实时操控的“数字演练场”。

(图说:LingBot-World 在适用场景、生成时长、动态程度、分辨率等方面均处于业界顶尖水平)

开源地址:https://github.com/Robbyant/lingbot-world?tab=readme-ov-file

针对视频生成中最常见的“长时漂移”问题(生成时间一长就可能出现物体变形、细节塌陷、主体消失或场景结构崩坏等现象),LingBot-World 通过多阶段训练以及并行化加速,实现了近 10 分钟的连续稳定无损生成,为长序列、多步骤的复杂任务训练提供支撑。

 

交互性能上,LingBot-World 可实现约 16 FPS 的生成吞吐,并将端到端交互延迟控制在 1 秒以内。用户可通过键盘或鼠标实时控制角色与相机视角,画面随指令即时反馈。此外,用户可通过文本触发环境变化与世界事件,例如调整天气、改变画面风格或生成特定事件,并在保持场景几何关系相对一致的前提下完成变化。

(图说:一致性压力测试,镜头最长移开 60 秒后返回,目标物体仍存在且结构一致)

(图说:高动态环境下,镜头长时间移开后返回,车辆形态外观仍保持一致)

(图说:镜头长时间移开后返回,房屋仍存在且结构一致)

模型具备 Zero-shot 泛化能力,仅需输入一张真实照片(如城市街景)或游戏截图,即可生成可交互的视频流,无需针对单一场景进行额外训练或数据采集,从而降低在不同场景中的部署与使用成本。

 

为解决世界模型训练中高质量交互数据匮乏的问题,LingBot-World 采用了混合采集策略:一方面通过清洗大规模的网络视频以覆盖多样化的场景,另一方面结合游戏采集与虚幻引擎(UE)合成管线,从渲染层直接提取无 UI 干扰的纯净画面,并同步记录操作指令与相机位姿,为模型学习“动作如何改变环境”提供精确对齐的训练信号。

 

具身智能的规模化落地面临一个核心挑战——复杂长程任务的真机训练数据极度稀缺。LingBot-World 凭借长时序一致性(也即记忆能力)、实时交互响应,以及对"动作-环境变化"因果关系的理解,能够在数字世界中"想象"物理世界,为智能体的场景理解和长程任务执行提供了一个低成本、高保真的试错空间。同时,LingBot-World 支持场景多样化生成(如光照、摆放位置变化等),也有助于提升具身智能算法在真实场景中的泛化能力。

 

随着“灵波”系列连续发布三款具身领域大模型,蚂蚁的 AGI 战略实现了从数字世界到物理感知的关键延伸。这标志着其“基础模型-通用应用-实体交互”的全栈路径已然清晰。蚂蚁正通过 InclusionAI 社区将模型全部开源,和行业共建,探索 AGI 的边界。一个旨在深度融合开源开放并服务于真实场景的 AGI 生态,正加速成型。

 

目前,LingBot-World 模型权重及推理代码已面向社区开放。

 

今天,我们正式开源了 LingBot-Depth 空间感知模型。

点击查看视频

不同于数字世界,具身智能的落地高度依赖物理空间信息,空间智能是其在现实场景落地应用的核心关键,而视觉维度下支撑空间智能的重要桥梁正是距离与尺度(Metric Depth)。基于这一核心需求,空间感知模型 LingBot-Depth 应运而生。

LingBot-Depth 是一种面向真实场景的深度补全模型,依托奥比中光 Gemini 330 系列双目 3D 相机进行 RGB-Depth 数据采集与效果验证,并基于深度引擎芯片直出的深度数据进行训练与优化,旨在将不完整且受噪声干扰的深度传感器数据转化为高质量、具备真实尺度的三维测量结果,提升环境深度感知与三维空间理解能力,为机器人、自动驾驶汽车等智能终端赋予更精准、更可靠的三维视觉。

实验结果表明,本模型在深度精度与像素覆盖率两项核心指标上均超越业界顶级工业级深度相机。在 NYUv2、ETH3D 等多个基准测试中,LingBot-Depth 在深度补全、单目深度估计及双目匹配任务上均达到当前最优水平,并在无需显式时序建模的情况下保持视频级时间一致性。LingBot-Depth 模型也已通过奥比中光深度视觉实验室的专业认证,在精度、稳定性及复杂场景适应性方面均达到行业领先水平。
640.webp
注解:在最具挑战的稀疏深度补全任务中,LingBot-Depth 性能整体优于现有多种主流模型。(图中数值越低代表性能越好。)

下游任务验证进一步表明,模型能够在 RGB 与深度两种模态之间学习到对齐的潜在空间表征,从而实现对透明及反光物体的稳定机器人抓取。

01技术架构:创新的掩码深度建模范式

640 (1).webp
在家庭和工业环境中,玻璃器皿、镜面、不锈钢设备等透明和反光物体物体十分常见,但却是机器空间感知的难点。传统深度相机受制于光学物理特性,在面对透明或高反光材质时,往往无法接收有效回波。针对这一行业共性难题,我们研发了“掩码深度建模”(Masked Depth Modeling,MDM)技术。训练过程中,我们使用海量 RGB–深度图像对,但刻意遮挡其中一部分深度区域,让模型仅根据 RGB 图像去预测缺失的深度值。随着训练进行,模型逐渐学会建立“外观—几何”之间的对应关系,也就是从“物体看起来像什么”推断“它大概有多远”。

在涵盖家庭、办公环境、健身房及户外场景的上千万张图像数据上完成训练后,当深度相机传回的数据出现缺失或异常时,LingBot-Depth 模型已能够融合彩色图像(RGB)中的纹理、轮廓及环境上下文信息,对缺失区域进行推断与补全,输出更完整、致密、边缘更清晰的三维深度图。

02 核心亮点

精准且稳定的相机深度感知

LingBot-Depth 在传统深度传感器易失效的复杂场景中,仍可输出具备真实尺度的高精度深度结果,包括透明物体、玻璃表面以及高反光材质等极具挑战性的环境。不同于依赖硬件改进的方案,本模型从视觉理解层面弥补传感器缺陷,实现对真实三维结构的可靠恢复。

除单帧精度优势外,LingBot-Depth 还表现出优异的时间一致性。在无需显式时序建模的情况下,模型即可为视频输入生成稳定、连贯的深度序列,有效避免闪烁与结构跳变问题,为机器人操作、AR/VR 以及动态场景感知等应用提供可靠的连续空间理解能力。
image.png

卓越的 3D 和 4D 环境感知能力
LingBot-Depth 为下游空间感知任务提供了坚实而通用的基础能力。通过将含噪且不完整的传感器深度优化为干净、稠密且具备真实尺度的三维测量结果,模型显著提升了多种高层视觉任务的稳定性与精度。具体而言,LingBot-Depth 支持:

更加准确的结构化室内场景建图,并有效提升相机位姿与运动轨迹估计的精度;

面向机器人学习的可靠 4D 点跟踪能力,在统一的真实尺度空间中同时刻画静态场景几何结构与动态物体运动。这使得系统能够在复杂真实环境中建立一致、连续且可用于决策与交互的空间理解表征。
11.jpg

灵巧抓取操作适用于透明与反光物体
通过在统一潜在空间中联合对齐 RGB 外观信息与深度几何结构,LingBot-Depth 使机器人在以往难以处理的复杂场景中实现稳定可靠的操作能力。基于模型优化后的高质量深度结果及跨模态对齐特征,我们进一步训练了一种基于扩散模型的抓取位姿生成策略,在透明杯、反光金属容器等具有挑战性的物体上取得了较高的抓取成功率。在真实机器人测试中,在透明储物盒等传统传感器难以处理的场景中,LingBot-Depth 通过生成合理的深度估计,成功实现了 50% 的抓握率,突破了技术瓶颈。
640 (2).webp
点击查看视频

03 从实验室到落地应用:显著提升消费级深度相机对高难物体的处理效果

LingBot-Depth 展现出与现有硬件设备的良好适配性。在不更换更高成本传感器的情况下,模型可提升可靠性并降低系统部署门槛。LingBot-Depth 模型依托奥比中光 Gemini330 系列双目 3D 相机进行效果测试,结果显示:面对透明玻璃、高反射镜面、强逆光以及复杂曲面等极具挑战性的光学场景,搭载 LingBot-Depth 后输出的深度图变得平滑、完整,且物体的轮廓边缘非常锐利,效果优于业内领先 3D 视觉公司 Stereolabs 推出的 ZED Stereo Depth 深度相机。
!上传中...640 (3).webp
注解:搭载 LingBot-Depth 后,奥比中光 Gemini 330 系列在透明及反光场景下深度图的完整性和边缘清晰度明显提升
640 (4).webp
注解:奥比中光 Gemini 330 系列相机搭载 LingBot-Depth 后输出的深度图效果优于业界领先的 ZED 深度相机

这意味着在不更换传感器硬件的前提下,LingBot-Depth 可显著提升消费级深度相机对高难物体的处理效果,降低机器人因深度缺失与噪声引发的抓取失败与碰撞风险。在具身智能、自动驾驶等领域都有一定应用价值,能够极大程度提升具身操作的精准度。

目前,我们已与奥比中光达成战略合作伙伴关系,将基于 LingBot-Depth 模型推出新一代深度相机,依托 Gemini 330 系列相机提供的芯片级 3D 数据,进一步通过技术协同、生态共建,为机器人处理各行各业极端场景、走向真正落地提供强大的技术支撑。

LingBot-Depth 已成功实现模型轻量化与端侧部署,具备在边缘计算设备上高效运行的能力。未来,我们期待通过开源开放与生态合作,和广大合作伙伴一起加速具身智能在家庭、工业、物流等复杂场景的大规模应用落地。

目前我们的模型、代码、技术报告已全部开源,欢迎大家访问我们的开源仓库。

Website:
https://technology.robbyant.com/lingbot-depth

Model:
https://huggingface.co/robbyant/lingbot-depth

Code:
https://github.com/Robbyant/lingbot-depth

Tech Report:
https://github.com/Robbyant/lingbot-depth/blob/main/tech-report.pdf

后续我们还将开源 300 万对精心标注的 RGB-深度数据,包括 200 万对实拍 RGB-D 样本,和 100 万对渲染样本,推动空间感知技术的开源生态建设和技术创新。

LingBot-Depth 的开源标志着我们在空间智能领域迈出的第一步。本周,我们还将陆续为大家带来我们在具身智能领域智能基座方向的更多成果,我们期待与全球开发者、研究者、产业伙伴一起,共同探索具身智能的上限。
image.png

从训练到推理:智算需求正在经历一场结构性转向

过去一年,如果仅从“算力需求增长”来理解中国智算产业的变化,显然是不够的。

 

在 2026 年 1 月 21 日举办的金山云年度 Tech Talk 上,金山云对其过去一年智算业务的演进进行了系统性回顾。从公开财报数据到客户侧真实使用情况,这些信息拼凑出了一幅更清晰的图景:智算需求并非简单放量,而是在训练、推理、应用形态和工程方式等多个层面同时发生结构性变化

 

这场变化的核心,不再只是“谁拥有更大规模算力”,而是围绕模型如何被使用、Token 如何被消耗、算力如何被组织展开。

 

变化首先体现在财务数据上。

 

根据金山云披露的公开财报,其智算云业务在过去一年实现了高速增长。以 2025 年第三季度为例,智算云账单收入达到 7.8 亿元人民币,同比增长接近 120%。这一数据并非孤立,而是延续了此前多个季度的增长趋势,显示智算已成为金山云收入结构中的重要组成部分。

 

金山云高级副总裁刘涛在分享中提到了金山云对这一趋势的判断:智算需求的增长重心,正在从训练侧逐步向推理侧转移。

 

从训练视角看,过去几年国内智算需求的主要推动力,来自少数对算力高度敏感的行业。

 

自动驾驶与具身智能,是其中最典型的代表。这些行业往往需要长期训练模型,并处理视频、点云、传感器等海量多模态数据。在早期阶段,它们对算力的需求更多集中在训练规模本身。

 

但与通用大模型不同,这类行业模型并不一味追求参数规模最大化。刘涛在分享中指出,自动驾驶和具身智能模型在训练阶段,对算力密度的要求并不极端,但对显存容量和数据处理能力要求更高。

 

这意味着,它们对算力平台的诉求,正在从“算力数量”转向“系统能力”——包括数据接入、预处理、多模态调度以及训练全流程的工程化效率。

 

推理侧的变化更加显著。

 

如果说训练侧的变化仍然是渐进的,那么推理侧的变化则更为直接和激烈。

 

一个被反复引用的数据,来自火山引擎在其公开发布会上的披露:平台每日 Token 调用量已达到 50 万亿级别。这是当前国内少数被明确对外公布的 Token 规模数据之一,也成为行业理解推理负载的重要参考。

 

与此同时,多个面向大众或企业的模型产品正在持续扩大推理需求。例如豆包、通义千问以及近期加大投入的腾讯元宝,都在不同程度上推动 Token 消耗快速增长。

 

这些产品并不完全运行在同一云平台上,但它们共同指向一个事实:推理阶段正在成为智算需求增长的主要来源,且这种增长具备明显的外溢性。

 

在所有推理场景中,编程类应用被反复强调。

 

刘涛指出,2025 年一个尤为显著的变化在于:编程相关请求正在成为 Token 消耗的主力场景之一。这一判断并非孤立,而是与海外模型使用结构的统计结果高度一致。

 

“Vibe Coding”成为一个关键词。一个广为流传的事实是,Claude Code 的大量代码本身,正是由 Claude Code 参与生成的。这意味着模型不再只是辅助工具,而是深度介入软件生产过程。

 

从全球 Token 调用结构来看,编程类请求在多家模型服务商中长期占据最高比例。金山云也观察到了同样的趋势:代码生成、重构和理解能力的提升,正在显著改变程序员的工作方式,并直接放大推理侧算力需求。

 

在具体应用层面,互联网客户仍然是智算需求的重要来源,但其需求形态已经发生变化。刘涛提到,当前互联网场景呈现出三个明显特征:

 

其一,多模态需求显著增长。视频生成、视频理解以及复杂推理任务,带动了训练与推理负载的持续上升;

其二,模型参数规模不再单向膨胀,而是围绕具体任务进行结构性调整;

其三,Vibe Coding 在头部互联网公司中已较为普及,使用更强的商用模型进行代码开发,正在成为常态。

 

这些变化意味着,互联网客户对智算平台的期待,已经从“算力服务”升级为对模型生命周期管理和工程体系的整体依赖。

 

为了满足更多元化的需求,刘涛表示,2025 年,智算平台金山云星流已完成从资源管理平台向一站式 AI 训推全流程平台的战略升级。从训推平台、机器人平台到模型 API 服务,升级后的金山云星流平台构建了从异构资源调度、训练任务故障自愈到机器人行业应用支撑、模型 API 服务商业化落地的全链路闭环。

实现三维进阶,智算云 AI 势能全释放

 

尽管各行各业大规模应用 AI 还处于早期探索阶段,但定位行业助力者的金山云,多年来持续打磨全栈 AI 能力。从 2023 年的智算网基础设施,到 2024 年智算云的平台化和 Serverless 化,再到 2025 年的一站式 AI 训推全流程平台,通过提升平台效率、突破行业边界、加速推理布局,金山云为迎接 AI 应用爆发做好了充分准备。

 

在平台效率方面,金山云星流训推平台提供从模型开发、训练到推理的完整生命周期管理,具备开发、训练、推理和数据处理四大模块能力,通过降低多模块协同复杂度,能实现“开箱即用”的 AI 开发体验。自研的 GPU 故障自愈技术结合任务可观测性设计,可实时监控硬件健康状态与任务进程,自动触发故障迁移与任务重调度,降低算力中断风险,保障长周期训练任务稳定运行。

 

作为面向机器人开发与落地的全链路云原生平台,金山云星流机器人平台深度融合数据采集、存储、标注、模型开发、训练、部署与仿真等核心环节,打造具身场景专属的数据、模型、仿真一体化引擎。平台率先实现具身智能数据工程领域采集、标注、管理的全链路闭环,可高效服务具身智能行业模型训练、仿真应用场景分析等核心需求,助力客户快速完成从算法研发到真实场景部署的全流程落地,最终推动机器人产业的智能化升级。

 

面向大模型应用开发者和企业用户,金山云星流平台模型 API 服务提供高可用、易集成的模型调用与管理能力,覆盖模型调用的全生命周期。该服务支持高并发推理与多模型管理,能够帮助用户高效接入多种模型资源,助力大模型应用落地。目前,金山云星流平台模型 API 服务已积累诸多行业客户。

 

同时,金山云星流平台的模型生态也在持续丰富。目前,平台已支持近 40 种不同模型,包括 DeepSeek、Xiaomi MiMo、Qwen3、Kimi 等。客户通过一站式访问,即可高效接入多种模型,在畅享稳定高效云服务的同时,更加聚焦 AI 业务创新和价值创造。

整理 | 华卫

 

1 月 26 日,理想汽车 CEO 李想召开了一场两个小时的线上全员会。据多位内部员工反馈,李想强调,2026 年是所有想要成为 AI 头部公司上车的最后一年;最晚 2028 年,L4 一定能落地;最终全球布局基座模型、芯片、操作系统、具身智能等业务的公司不会超过 3 家,理想会努力成为其中一家。

 

“未来,理想会进一步强化具身智能的品牌定位,而不仅仅是创造移动的家。在汽车之外,理想一定会做人形机器人,并会尽快落地亮相。”而接下来,理想为了迎接新一轮的 AI 竞争,公司将对研发进行新一轮的组织变革,将研发团队按照基座模型团队、软件本体团队、硬件本体团队等进行划分,其中汽车、机器人等都归为硬件本体团队。

 

同时,李想表示,要去招聘最好的人,把原来那些去到机器人创业公司的人再招回来。在此之前,已经有不少智驾核心技术人员从该公司离职,去具身智能赛道创业了。2025 年下半年,前理想自动驾驶研发负责人贾鹏、量产负责人王佳佳与前 CTO 王凯等核心高管一起创办了具身智能公司至简动力,且很快就拿到多家头部美元基金和互联网科技公司的投资意向。

 

当前,理想已在官网社招页面放出多个人形机器人研发岗位。从招聘信息可以看出,其研发项目几乎覆盖了人形机器人从核心部件到系统集成的全流程。

 

在 2025 年三季度业绩会上,李想公开表示,现在电动车行业拼参数已经拼到死胡同了,做智能终端又容易变成把手机应用搬到车里,属于重复建设,所以理想选了第三条路:把车定义成“具身智能”产品,让它从单纯的交通工具,变成有感知、有大脑、有神经、有心脏、有身体的“机器人”。

 

事实上,早在 2024 年底的 AITALK 上,李想就说过,理想做人形机器人是肯定的,但还没到合适的时机。然而,此前,因为技术跟不上、人形机器人供应链不成熟等问题,理想暂停了人形机器人自研项目。

 

但理想在泛机器人领域的布局也一直在进行。2025 年 6 月还有消息称,理想成立了“空间机器人”和“穿戴机器人”两个二级部门,都归高级副总裁范皓宇带领的产品部管,智能眼镜 Livis 是首款产品。

 

空间智能迎来重要开源进展。1 月 27 日,蚂蚁集团旗下具身智能公司灵波科技宣布开源高精度空间感知模型 LingBot-Depth。

 

该模型基于奥比中光 Gemini 330 系列双目 3D 相机提供的芯片级原始数据,专注于提升环境深度感知与三维空间理解能力,旨在为机器人、自动驾驶汽车等智能终端赋予更精准、更可靠的三维视觉,在“看清楚”三维世界这一行业关键难题上取得重要突破。这也是蚂蚁灵波科技在 2025 外滩大会后首次亮相后,时隔半年在具身智能技术基座方向公布重要成果。

 

在 NYUv2、ETH3D 等权威基准评测中,LingBot-Depth 展现出代际级优势:相比业界主流的 PromptDA 与 PriorDA,其在室内场景的相对误差(REL)降低超过 70%,在挑战性的稀疏 SfM 任务中 RMSE 误差降低约 47%,确立了新的行业精度标杆。

(图说:在最具挑战的稀疏深度补全任务中,LingBot-Depth 性能整体优于现有多种主流模型。图中数值越低代表性能越好。)

 

在家庭和工业环境中,玻璃器皿、镜面、不锈钢设备等透明和反光物体物体十分常见,但却是机器空间感知的难点。传统深度相机受制于光学物理特性,在面对透明或高反光材质时,往往无法接收有效回波,导致深度图出现数据丢失或产生噪声。

 

针对这一行业共性难题,蚂蚁灵波科技研发了“掩码深度建模”(Masked Depth Modeling,MDM)技术,并依托奥比中光 Gemini 330 系列双目 3D 相机进行 RGB-Depth 数据采集与效果验证。当深度数据出现缺失或异常时,LingBot-Depth 模型能够融合彩色图像(RGB)中的纹理、轮廓及环境上下文信息,对缺失区域进行推断与补全,输出完整、致密、边缘更清晰的三维深度图。

值得一提的是,LingBot-Depth 模型已通过奥比中光深度视觉实验室的专业认证,在精度、稳定性及复杂场景适应性方面均有良好表现。

 

实验中,奥比中光 Gemini 330 系列在应用 LingBot-Depth 后,面对透明玻璃、高反光镜面、强逆光及复杂曲面等极具挑战的光学场景时,输出的深度图依然平滑、完整,且物体的轮廓边缘非常锐利,其效果显著优于业内领先的 3D 视觉公司 Stereolabs 推出的 ZED Stereo Depth 深度相机。这意味着在不更换传感器硬件的前提下,LingBot-Depth 可显著提升消费级深度相机对高难物体的处理效果。

(图说:搭载 LingBot-Depth 后,奥比中光 Gemini 330 系列在透明及反光场景下深度图的完整性和边缘清晰度明显提升)

(图说:其效果优于业界领先的 ZED 深度相机)

 

LingBot-Depth 的优异性来源于海量真实场景数据。灵波科技采集约 1000 万份原始样本,提炼出 200 万组高价值深度配对数据用于训练,支撑模型在极端环境下的泛化能力。这一核心数据资产(包括 2M 真实世界深度数据和 1M 仿真数据)将于近期开源,推动社区更快攻克复杂场景空间感知难题。

 

据了解,蚂蚁灵波科技已与奥比中光达成战略合作意向。奥比中光计划基于 LingBot-Depth 的能力推出新一代深度相机。

 

新加坡的会场里,全球人工智能顶会 AAAI,正式揭晓年度奖项,也迎来了它的第 40 个年头。

今年共颁发了 5 个杰出论文奖,以及 2 个经典论文奖。在获奖名单中,竟然还有“机器学习三巨头”之一的 Yoshua Bengio

不过这一次,他并不是因为最新成果获奖,而是凭借在 2011 年写的一篇论文获得了经典论文奖。而且不久前,他刚达成 AI 领域首个“百万被引作者”的成就。

为什么 10 多年前的这篇论文,会在今年被重新拉出来,还获得了经典论文奖?

不妨来看看它讲了些什么。

论文名为 Learning Structured Embeddings of Knowledge Bases(《面向知识库的结构化表示学习》)。提出了一种方法,把知识库的结构化数据嵌入到连续空间中,从而让结构化知识更容易用于机器学习任务。

换句话说,这篇文章解决的是如何把离散世界(知识、事实、关系)嵌入到连续空间;以及如何让神经网络不靠纯统计,而是“接住现实结构”。而今天热门的世界模型、RAG、Agent 的外部记忆等等这些东西,从本质上讲,全都在复用这条路线。

再说回今年获奖的 5 篇杰出论文,这些论文有讲机器人和 VLA 的,有在讲如何在连续时间系统中让 AI 模型“白盒化”的,还有讲 LLM 和 CLIP、讲高频信号和局部判别结构的。

串起来看,这些论文的研究方向,其实可以概括出一个共同指向:AI 的竞争,已从拼实验环境的中的炫酷 Demo,转向真正的应用层。Scaling Law 那套虽然不完全失效,但多少有点过时了,谁能在真实世界中被理解、被修订、被信任越来越关键。

AAAI 2026: AI 走向现实,评奖标准重塑

下面来看看这几篇杰出论文,都有哪些有意思的信息。

具身智能领域:

论文名:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver(ReconVLA:作为高效机器人感知器的重建式视觉-语言-动作模型)

要说清本文的创新点,需要再这里先简单回顾一下什么是 VLA——VLA(Vision-Language-Action)具身智能领域的一个关键模型,可以把视觉感知、语言理解和动作生成统一到同一个模型中,直接根据“看到什么 + 听到什么”,来输出可执行机器人动作。

不过当前 VLA 的缺陷也是很明显的:比如模型在执行动作时,视觉注意力高度分散;即便模型能“理解指令”,但在复杂场景、多干扰物、长任务中,往往看不准真正要操作的物体。

结果就是:抓错对象、操作不精确(现实世界对精确度要求很高)、长链任务中途失败等等。

总之,以往 VLA 只监督“动作输出”,几乎不约束“视觉感知过程本身”。

ReconVLA 的关键思想是:不“告诉模型看哪里”,而是“逼模型把关键区域重建出来”。

其核心机制,简单来说,就是模拟人类视觉的“凝视(gaze)”机制,不要求模型输出框,也不输入裁剪图,而是让模型在内部生成一种“重建信号”,去还原“当前要操作的局部区域”。

论文还系统性地对比了三类视觉定位(grounding)范式:

  • 一类是以外部检测器和裁剪图像为代表的 Explicit Grounding

  • 一类是先输出目标框、再生成动作的 CoT Grounding

  • 以及作者提出的 Implicit Grounding(隐式 Grounding),也就是 ReconVLA 的方式。

图注:不同范式 Grounding 之间的概念性对比。

前两类方法本质上都是在显式告诉模型“答案在哪里”,并未真正改变 VLA 内部的视觉表示和注意力机制。

而 ReconVLA 通过重建过程,将关键区域作为一种隐式的视觉监督信号,引导模型生成所谓的“重建 token(reconstructive tokens)”,从而在不引入额外输入或输出的前提下,重塑视觉感知能力。

换句话说,它不再让模型“蒙着眼睛试动作”,而是强制模型在每一步决策前,先把目标对象看准,再去动手

关于从“结果可解释”,走向“结构可操作”:

论文名:Causal Structure Learning for Dynamical Systems with Theoretical Score Analysis

(基于理论评分分析的动态系统因果结构学习方法)

这篇论文提出了一种方法:CADYT。能够在连续时间、甚至不规则采样的数据中,同时刻画系统的动力学演化,并恢复其中的因果结构。

更重要的是,作者证明了用于判断因果关系的评分函数,在理论上等价于一种合理的模型选择准则,而不是经验性的启发式指标。换句话说,就是这个评分不是凭经验设计的,而是从理论上保证:它会偏向那些“解释得刚刚好、不多也不少”的因果结构。

在现实世界的系统中,无论是工业控制、物理系统,还是医疗过程,系统本质上都是连续时间演化的,而且由稳定的因果机制驱动。但以往的方法往往只能解决其中一半问题。

一类是时间序列因果发现方法,它们通常基于离散时间建模(如 DBN、Granger),并假设规则采样,因此在面对真实的连续动力学和不规则采样时,难以准确刻画系统本身的演化机制。

另一类是连续时间动力学建模方法(如 Neural ODE、GP-ODE),虽然能自然处理不规则采样,却主要关注预测精度,本质上并不区分因果依赖与偶然相关。

这就留下了一个长期存在的空白:几乎没有方法,既工作在连续时间框架下,又能够同时恢复系统的动力学机制和因果结构。

而 CADYT 正是针对这一空白提出的。它将连续时间的高斯过程动力学建模,与基于最小描述长度(MDL)和算法马尔可夫条件(AMC)的因果评分结合起来,在不规则采样条件下,通过比较不同因果结构对数据的“压缩能力”,来识别真正的因果关系,并给出了明确的理论保证。

说得更直白一点,这项工作把连续时间动力学建模,从“拟合得像不像真实轨迹”,推进到了“学到的机制在因果上是不是对的”。

论文名:Model Change for Description Logic Concepts

(描述逻辑概念的模型变更)

此论文还未公开上传,暂无链接。

关于表示学习,重新审视结构本身

论文名:LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

(LLM2CLIP:强大语言模型解锁更丰富跨模态表征)

CLIP(Contrastive Language–Image Pre-training)是一个经典的多模态模型,通过对比学习,将图像和文本映射到同一语义空间,从而实现“以文找图、以图找文”等跨模态理解能力。

CLIP 在跨模态检索和基础语义对齐上表现出色,但它也有一个公认的短板:文本编码器容量较小、上下文长度有限,对长、复杂、信息密集的文本理解能力不足。这在长文本检索、多语言理解等场景中尤为明显。

LLM 在语言理解、上下文建模和世界知识方面,倒是明显更强。但问题在于,LLM 不能直接接入 CLIP

——一方面,原生 LLM 的句向量并不具备对比学习所需的“高区分度”,很难有效拉开不同 caption 之间的距离;另一方面,如果端到端联合训练 LLM 和 CLIP,计算成本也高得不可接受。

这篇论文提出了一种系统化的新方法,名曰:LLM2CLIP,顾名思义,把 LLM“接入”或“输送”到 CLIP 里,用 LLM 来替代或者增强 CLIP 的文本能力。

但这并不是简单地把 LLM 直接接进去。作者给出的解决路径,是分两步走,各解决一个关键障碍

第一步,是先让 LLM 成为一个“合格的文本 embedding 模型”。为此,论文提出了 Caption-Contrastive Fine-tuning

使用同一张图像对应的不同 caption 作为正样本,通过对比学习,让语义相近的描述在向量空间中更接近、不相关的描述更远;同时配合平均池化、双向注意力和 LoRA 等结构调整,提升句向量的稳定性和可区分性。

这一步的目标并不是做多模态,而是把 LLM 训练成一个真正“好用”的文本表示器。

第二步,则是直接用经过处理的 LLM,替换掉 CLIP 原有的文本编码器。在这一阶段,LLM 参数被冻结,仅训练一个非常轻量的 adaptor 来对齐视觉特征,使整体训练流程几乎等同于普通的 CLIP 微调,算力成本基本不变。

大量消融实验表明:同时保留两个文本编码器、或试图在两者之间做复杂对齐,效果反而更差;“直接替换”是最简单、也是最有效的方案。

实验结果显示,LLM2CLIP 在长文本检索任务上提升最为显著,短文本检索也有稳定增益,同时多语言检索能力明显增强。更重要的是,这些提升是在仅使用百万级数据、几乎不增加训练成本的前提下实现的。

总体来看,LLM2CLIP 的价值在于,它没有重造一个更大的多模态模型,而是用一种低成本、可复用的方式,把“语言理解”这块短板,直接补进了 CLIP 的核心结构里。

论文名:

High-Pass Matters: Theoretical Insights and Sheaflet-Based Design for Hypergraph Neural Networks

(高频信息的重要性:面向超图神经网络的理论分析与 Sheaflet 方法设计)

此论文还未公开上传,暂无链接。

总而言之,这些研究都在把关注点从结果层面的性能,推向模型内部的感知、结构和机制本身。

论文地址:

https://arxiv.org/abs/2508.10333

https://arxiv.org/abs/2411.04997

https://arxiv.org/abs/2512.14361

参考链接:

https://aaai.org/about-aaai/aaai-awards/aaai-conference-paper-awards-and-recognition/

https://aaai.org/about-aaai/aaai-awards/aaai-classic-paper-award/?utm_source

https://aaai.org/conference/aaai/aaai-26/award-talks/

摘要​:若说 2023 年是生成式 AI 的概念启蒙年,2026 年则正式开启了人工智能的“应用元年”与“价值兑现年”。这一年,大模型技术从参数竞赛迈入能力沉淀期,NSP 范式推动 AI 实现从“预测文本”到“理解世界”的认知跨越,具身智能、多智能体系统从实验室走向产业实景,资本市场对 AI 企业的估值逻辑从“技术故事”转向“落地能力”。本文立足 2026 年 AI 产业爆发的核心特征,深度解析技术范式变革的底层逻辑,拆解工业、金融、医疗、出行等领域的商业化落地场景,探讨 AI 对社会生产生活的重构影响,梳理技术落地中的伦理与安全挑战,并结合行业实践给出企业与个人的适配策略,最后通过高频 QA 问答解答核心困惑,为把握 AI 元年的发展机遇提供全景式参考。

关键词​:2026 AI 元年;NSP 范式;具身智能;多智能体系统;AI 商业化落地;自动驾驶;智能体协作;AI 伦理规范

一、为何是 2026?AI 元年的三大核心支撑

“元年”的界定,从来不是单一技术的突发突破,而是技术成熟度、产业需求度与生态完备度的三重共振。2026 年之所以能成为公认的 AI 元年,核心源于三个关键临界点的全面突破,让人工智能彻底告别“实验室阶段”,迈入规模化产业应用的全新周期。

1.1 技术临界点:从“文本预测”到“世界理解”的认知跃迁

北京智源人工智能研究院发布的《2026 十大 AI 技术趋势》明确指出,AI 发展的核心转变已从“预测下一个词(NTP 范式)”迈向“预测世界状态(NSP 范式)”。这一技术范式的革新,让 AI 首次具备了理解物理世界规律的能力,实现了从“感知”到“认知”的本质跨越。不同于传统语言模型仅能生成连贯文本,基于 NSP 范式的世界模型通过多模态数据统一编码,可自主学习物理动态、时空连续性与因果关系,形成“理解-预测-规划”的完整认知闭环。

2026 年,这一技术突破已形成规模化应用基础:海外 OpenAI 的 Sora 2 展现出对真实世界的深度模拟能力,World Labs 的 RTFM 模型可从单幅图像创建 3D 空间;国内智源悟界·Emu3.5 成为 NSP 范式的标杆,蚂蚁百灵大模型在多模态生成、方言识别领域已逼近 GPT-5 水平。这种“世界模拟器”级别的能力,为 AI 从数字空间渗透至物理世界提供了核心技术底座。

1.2 成本临界点:推理成本骤降催生规模化应用

技术普及的前提是成本可控。相比 2023 年,2026 年大模型的 Token 推理成本下降了 99% 以上,这一“摩尔定律式”的成本锐减,让 AI 部署从“高成本试点”变为“全场景可行”。无论是企业级的复杂流程优化,还是个人端的微小服务需求(如自动整理发票、智能回复评论),都具备了经济可行性。

成本下降的背后,是算力架构优化与技术迭代的双重驱动:一方面,专用 AI 芯片的量产降低了硬件门槛;另一方面,模型轻量化技术的突破的,让中小微企业无需搭建高算力集群,通过调用公有云 API 即可享受高阶 AI 能力。成本的“亲民化”,为 AI 元年的全面爆发扫清了最关键的商业障碍。

1.3 生态临界点:资本理性回归与产业需求共振

2026 年初,港股市场的 AI 企业上市潮成为行业转折的重要注脚:智谱 AI 以“全球通用大模型第一股”身份登陆港交所,1164 倍超额认购、首日 528 亿港元市值;仅隔一天,MiniMax 接力挂牌,1837 倍超额认购、盘中涨幅超 109%、市值破千亿港元。短短 48 小时,两家头部企业募资近百亿港元,市值总和逼近 1700 亿港元,这场资本盛宴的背后,是市场对 AI 产业价值的集体押注。

更重要的是,资本逻辑已从“盲目追逐参数规模”转向“聚焦技术落地能力”。与此同时,产业端的需求已进入“爆发期”:全球 AI 市场规模从 2025 年的 7575.8 亿美元增至 9000 亿美元,同比增长 18.7%;国务院“人工智能 +”行动将 AI 定位为新型工业化“必答题”,工业、金融、医疗等领域的智能化需求迫切。资本理性与产业需求的精准对接,构成了 AI 元年的生态基础。

二、AI 元年的核心技术突破:重构智能的底层逻辑

2026 年的 AI 技术突破,不再是单一维度的参数提升,而是从架构设计、能力形态到协作模式的全方位重构,催生出一系列具备“工业化稳定性”的智能形态,为商业化落地提供了多元化支撑。

2.1 NSP 范式主导:AI 成为“世界规律的探索者”

NSP(Next-State Prediction)范式的普及,是 2026 年 AI 技术变革的核心标志。这一范式让 AI 从“文字游戏”升级为“世界模拟器”,其核心价值在于让模型具备了对物理世界的预测与规划能力。在自动驾驶领域,基于 NSP 范式的系统可通过模拟复杂路况,大幅降低实车测试成本;在机器人训练中,虚拟场景预训练让实体机器人的环境适应能力提升 50% 以上;在科研领域,AI 通过模拟分子运动,将新药研发周期从数年缩短至数月。

与传统 NTP 范式相比,NSP 范式的核心优势在于“因果推理能力”——不再是基于概率的文本生成,而是基于对世界规律的理解做出决策。这种能力升级,让 AI 从“辅助工具”向“决策主体”转变,成为 AI 元年技术价值爆发的核心引擎。

2.2 具身智能“出清期”:从技术演示到产业工具

经过 2025 年的“百机大战”,2026 年具身智能行业进入“出清期”:同质化企业因资金断裂或技术不足被淘汰,头部企业凭借订单优势与技术积累形成稳定格局。技术层面,“世界模型 + 强化学习”的闭环进化模式成为主流,智源发布的通用具身大脑 RoboBrain2.0 与小脑基座 RoboBrain-X0,实现了跨场景多任务的轻量化部署;海外 Tesla Optimus 2.5 已应用于工厂生产、农场运营等真实场景。

商业化方面,具身智能正式从“实验室验证”转向“量产交付”。智元、乐聚智能等企业推进上市进程,标志着这一领域已从“技术概念”走向“产业工具”。在工业制造的精密装配、服务业的个性化服务、医疗领域的辅助诊疗等场景,具身智能正逐步替代人工完成高难度、高重复性工作,成为实体产业智能化转型的核心抓手。

2.3 多智能体系统:标准化协议推动“协同作战”

面对日益复杂的任务需求,单智能体的能力天花板逐渐显现,多智能体系统(MAS)成为解决复杂问题的关键路径。2026 年,多智能体发展的核心突破是“协议标准化”——MCP 与 A2A 通信协议被捐赠给 Linux 基金会后实现分层融合,成为 Microsoft、Google 等巨头及 LangChain、AutoGen 等框架的原生支持协议,IBM 计划将 ACP 协议并入 A2A,推动行业标准统一。

协议的统一,让不同企业开发的智能体拥有了“通用语言”,能够跨平台协作完成复杂任务流。在金融领域,由风险评估智能体、投资分析智能体、客户服务智能体组成的团队,可协同完成全流程金融服务;在工业场景中,生产智能体、质检智能体、物流智能体形成协作网络,将全产业链效率提升 30% 以上。多智能体的“协同作战”模式,正在重构企业的生产运营逻辑。

2.4 确定性逻辑回归:AI 从“玩具”走向“生产力”

单纯依赖大模型的概率生成无法满足企业级需求,2026 年的主流架构已演变为“LLM(大脑)+ Code(肌肉)”的混合模式。通过 Python 等确定性代码约束大模型的“幻觉”,让 AI 应用具备了工业级的稳定性。这种确定性逻辑的回归,是 AI 从“娱乐工具”走向“核心生产力”的关键一步。

技术专家金加德指出,企业级应用对错误零容忍,大模型的本质是概率预测,存在幻觉风险,而确定性代码的引入,可为不可控的模型行为加上“护栏”。例如,在财务数据处理场景中,通过 Python 正则表达式精准提取关键信息,再由大模型进行分析总结,既保证了数据准确性,又发挥了模型的分析能力,实现了“精准性”与“智能化”的平衡。

三、AI 元年的商业化落地:ToC 与 ToB 的双轨爆发

技术突破的最终价值,需要通过商业化落地实现闭环。2026 年,AI 应用呈现“ToC 超级应用竞逐 +ToB 垂直突破”的双轨格局,经历早期概念验证的“幻灭期”后,真正可衡量的商业价值集中爆发,印证了 AI 元年的产业价值。

3.1 ToC 端:超级应用重构互联网流量格局

“All in One”的超级应用成为 C 端 AI 竞争的核心战场。这种以单一入口实现信息获取、任务规划、问题解决的闭环模式,依托高算力成本与庞大用户数据迭代,正在重塑互联网流量格局。2026 年,海外 ChatGPT、Gemini 日活均突破 1 亿,Gemini 已取代 Google Maps 原生语音助手,实现功能内化;国内市场同样热闹,蚂蚁“灵光”AI 助手上线 6 天下载量破 200 万,支持 30 秒生成小应用与全模态输出;字节豆包依托抖音生态引流,月活位居全球第二,仅次于 ChatGPT。

超级应用的竞争本质是生态整合能力的较量。字节跳动凭借短视频流量优势,将 AI 助手深度融入内容创作、社交互动、生活服务场景;阿里以千问 App 为核心,整合消费、支付、物流等电商生态资源;蚂蚁集团则依托金融科技优势,让“灵光”助手具备理财咨询、生活缴费、政务办理等复合功能。2026 年,超级应用已进入“生态闭环决战”阶段,能够实现跨场景无缝衔接、个性化精准服务的产品,将定义 AI 时代的“新 BAT”格局。

与此同时,垂直赛道成为中小玩家的突围机会。多模态、大健康、教育等高 ROI 领域呈现“低频高价值”特征,Google Nano Banana Pro 单次调用价格为文本模型的几十倍,但仅需 1.5% 调用量即可实现同等收入。国内,蚂蚁“蚂蚁阿福”健康 App 聚焦慢病管理、健康咨询等场景;MiniMax 的海螺 AI 深耕视频创作赛道,成为自媒体、设计师的必备工具;字节即梦 AI 在教育领域的个性化辅导功能,精准击中用户痛点。这些垂直应用凭借高用户粘性与强付费意愿,构建了可持续的盈利模式,成为 C 端 AI 商业化的重要补充。

3.2 ToB 端:垂直场景突破赋能产业转型

ToB 领域的 AI 落地,呈现“核心行业先行、全链路渗透”的特征,工业、金融、医疗、出行等领域成为 AI 价值兑现的核心阵地,推动产业智能化转型进入深水区。

在工业制造领域,“AI+ 制造”已从单点自动化升级为全流程智能化。通过部署生产智能体、质检智能体与物流智能体,企业实现了从原材料采购到成品交付的全链路优化。某汽车零部件企业引入多智能体协作系统后,生产效率提升 28%,不良率下降 40%,充分验证了 AI 对工业场景的赋能价值。

金融领域是 AI 落地的“高成熟度场景”。多智能体系统在风险评估、投资分析、客户服务等环节的应用,大幅提升了金融服务的效率与精准度。例如,某银行部署的智能风控系统,通过多智能体协同分析企业经营数据、行业趋势、市场风险,将不良贷款识别时间从 3 个月缩短至 1 周,识别准确率提升 55%。

医疗领域的 AI 应用则聚焦“精准诊疗”与“效率提升”。AI 辅助诊断系统通过分析医学影像、病历数据,可快速识别早期病灶,为医生提供精准参考;在新药研发领域,AI 通过模拟分子运动与药物作用机制,大幅缩短了研发周期、降低了研发成本,2026 年已有多款 AI 辅助研发的药物进入临床试验阶段。

出行领域的 L3 级自动驾驶商业化落地,成为 AI 元年的重要里程碑。2025 年底,中国首批 L3 级自动驾驶汽车获得专属牌照,正式从技术测试迈入“持证上路”阶段;2026 年初,元戎启行与国际头部主机厂达成 L3 级自动驾驶合作,力争 2026 年累计交付突破一百万辆。L3 级自动驾驶的核心突破在于责任主体的重构——在系统接管期间,驾驶责任由驾驶员转向系统,这一变化不仅考验技术稳定性,更推动了法规与产业生态的完善。元戎启行采用的 VLA 模型,通过引入语言模型具备“思维链”特点,可实现复杂的语义理解和长时序因果推理,全程可求导,让系统像老司机一样具备经验性判断能力。

四、AI 元年的挑战:技术狂欢背后的伦理与安全考题

AI 元年的全面爆发,不仅带来了技术突破与商业价值,也抛出了一系列伦理与安全考题。如何平衡技术创新与风险管控,成为 AI 可持续发展的关键前提,需要政府、企业与社会共同应对。

4.1 伦理困境:算法偏见与责任界定难题

算法偏见是 AI 落地的“隐性风险”。AI 模型的训练数据源于现实世界,若数据中存在性别、种族、地域等偏见,将导致模型输出带有歧视性的结果,在招聘、信贷、司法等场景中引发公平性问题。2026 年,随着 AI 应用的规模化,算法偏见问题逐渐显现,如何构建“公平、透明”的 AI 模型,成为企业需要解决的核心伦理课题。

责任界定难题则在高风险场景中尤为突出。以 L3 级自动驾驶为例,当系统接管期间发生交通事故,责任应归属驾驶员、车企还是 AI 系统开发商?目前,全球范围内的相关法规尚未形成统一标准,责任界定的模糊性,既影响了企业的技术推进节奏,也制约了消费者的接受度。

4.2 安全风险:数据泄露与系统失控隐患

数据安全是 AI 落地的“生命线”。AI 模型的训练与运行需要大量数据支撑,其中不乏企业商业机密与个人隐私数据。2026 年,多智能体系统的普及让数据流转路径更加复杂,若缺乏完善的权限管控与加密机制,将面临数据泄露、滥用的风险,违反《数据安全法》《个人信息保护法》等相关法规。

系统失控风险则是 AI 发展的“终极担忧”。随着 AI 自主决策能力的提升,尤其是多智能体协同系统的自主规划能力增强,若缺乏有效的“安全护栏”,可能出现超出人类预期的行为,引发安全事故。如何为 AI 系统设置“边界”,确保其始终在人类可控范围内运行,是全球 AI 领域的共同挑战。

4.3 社会影响:就业结构重构与数字鸿沟

AI 技术的规模化应用,必然带来就业结构的重构。重复性、标准化的工作岗位(如流水线工人、数据录入员、基础客服)将面临被 AI 替代的风险,而具备 AI 协作能力、创意能力、战略决策能力的岗位需求将大幅增加。这种结构性变化,需要劳动者提升自身技能以适应新的就业市场,也需要政府与企业共同推进职业培训体系的完善。

数字鸿沟问题也随之凸显。不同地区、不同群体对 AI 技术的掌握程度与应用能力存在差异,若缺乏有效的引导与扶持,可能导致部分群体被技术边缘化,加剧社会不平等。如何推动 AI 技术的普惠化应用,缩小数字鸿沟,是 AI 元年需要关注的社会议题。

五、AI 元年的适配策略:企业与个人的破局之道

面对 AI 元年的技术浪潮与产业变革,企业与个人需要主动适配、积极转型,才能把握发展机遇、规避潜在风险。无论是企业的技术落地,还是个人的职业发展,都需要建立全新的思维模式与能力体系。

5.1 企业适配策略:从“技术跟风”到“价值导向”

企业落地 AI 技术,应摒弃“盲目跟风”的心态,以“价值导向”为核心,从技术选型、场景适配、组织调整三个维度构建适配策略。

在技术选型上,中小企业无需盲目追求自建大模型,可通过调用公有云 API 或使用低代码智能体平台(如 Coze),低成本接入 AI 能力,优先选择标准化场景试点,验证价值后再逐步推广;大型企业可结合自身业务需求,进行定制化模型微调与多智能体系统搭建,构建核心技术壁垒。

在场景适配上,应遵循“先易后难、精准落地”的原则,优先选择痛点突出、数据基础好、ROI 高的场景(如金融风控、工业质检、客服优化),避免“为了 AI 而 AI”的无效投入。同时,要建立“AI+ 人工”的协同机制,在高风险场景中保留人工复核环节,确保安全可控。

在组织调整上,企业需要构建适配 AI 时代的组织架构与人才体系。一方面,通过培训提升现有员工的 AI 协作能力,让员工从重复性工作中解放,聚焦高价值任务;另一方面,引进具备 AI 架构设计、数据工程、业务理解能力的复合型人才,搭建专业的 AI 运营团队,支撑技术的持续落地与迭代。

5.2 个人适配策略:从“技能竞争”到“能力重构”

面对 AI 带来的职业变革,个人需要跳出传统的“技能竞争”思维,从三个维度重构自身能力体系,成为 AI 时代的“不可替代者”。

第一,掌握“胶水语言”能力。Python 作为 AI 时代的通用语,其核心价值不在于写底层算法,而在于数据清洗和逻辑兜底。即使是非技术岗位,掌握基础的 Python 技能,也能提升与 AI 协同工作的效率,例如用简单的脚本解决数据提取、格式转换等问题。

第二,培养“架构师思维”。不要沉迷于具体的工具使用,而要聚焦数据流的设计与问题的定义。能够清晰梳理业务流程、识别核心痛点,并将其映射为 AI 系统的工作流,这种架构设计能力是 AI 时代的核心竞争力。

第三,建立“领域知识壁垒”。AI 可以生成通用内容、完成标准化任务,但缺乏对特定行业的深度理解与业务潜规则的把握。“懂 AI 的业务专家”将比“懂业务的 AI 专家”更具竞争力,深入理解所在行业的痛点与需求,用 AI 优化业务流程,才能构建真正的个人壁垒。

六、行业高频 QA 问答

6.1 2026 年被称为 AI 元年,和 2023 年的生成式 AI 热潮有什么本质区别?

核心区别在于“技术概念”与“商业价值”的落地差异:2023 年的生成式 AI 热潮以技术启蒙和概念验证为主,AI 更多是“娱乐工具”或“辅助工具”,商业化落地处于早期阶段,缺乏可规模化的盈利模式;2026 年的 AI 元年,技术已从参数竞赛迈入能力沉淀期,NSP 范式、具身智能、多智能体等技术实现产业化落地,ToC 超级应用与 ToB 垂直场景均实现商业价值兑现,资本逻辑从“追逐故事”转向“聚焦落地”,AI 正式成为推动产业转型的核心生产力。

6.2 中小微企业在 AI 元年如何低成本落地 AI 技术?

中小微企业无需投入大量资金自建大模型,可通过“轻量化接入、场景化试点”的方式低成本落地:1. 优先选择低代码/零代码智能体平台(如 Coze)或调用公有云 AI API(如文心一言、ChatGPT),降低技术接入门槛;2. 聚焦核心痛点场景(如客服优化、数据统计、文案生成),选择标准化插件或模板,避免定制化开发;3. 采用“小步快跑”的策略,先在单一场景试点验证价值,再逐步推广至其他场景,无需追求全流程覆盖;4. 依托现有员工进行技能升级,通过短期培训提升员工与 AI 协同工作的能力,无需盲目招聘专业 AI 人才。

6.3 L3 级自动驾驶在 2026 年商业化落地,普通消费者需要注意什么?

普通消费者需重点关注三个核心问题:1. 明确责任边界:L3 级自动驾驶仅在特定场景(如高速路、城市快速路)生效,系统接管期间责任由企业承担,但驾驶员需在系统发出接管请求时及时响应,否则仍需承担责任;2. 了解技术限制:目前 L3 级系统仍无法应对极端天气(如暴雨、暴雪)、复杂路况(如无标识道路、施工路段),需提前知晓系统的适用范围;3. 选择合规产品:购买搭载 L3 级自动驾驶的车辆时,需确认车辆已获得官方专属牌照,避免购买未合规的产品,保障自身权益。

6.4 普通职场人如何避免被 AI 替代,提升自身竞争力?

核心策略是“向上生长、向下扎根”:向上生长即提升架构设计能力和业务理解力,从“任务执行者”转变为“系统设计者”,聚焦 AI 无法替代的创意策划、战略决策、客户关系维护等高价值工作;向下扎根即掌握基础的 AI 协同能力,了解 AI 工具的使用方法,用 AI 提升工作效率,同时学习简单的 Python、数据处理等技能,为自身能力兜底。此外,建立跨领域知识体系,培养 AI 难以模拟的沟通协调、团队管理、应急处理能力,也是提升不可替代性的关键。

6.5 2026 年 AI 技术落地面临的最大挑战是什么,如何应对?

最大挑战是“伦理安全管控与商业价值平衡”:一方面,伦理安全问题(如算法偏见、数据泄露、责任界定)制约了 AI 的规模化落地;另一方面,企业需要快速实现商业价值以支撑技术持续投入。应对策略需多方协同:政府层面应加快完善 AI 相关法规与标准,明确责任界定、规范数据使用;企业层面需建立“伦理先行”的研发理念,将安全管控嵌入 AI 系统全生命周期,同时聚焦高 ROI 场景实现价值闭环;社会层面应加强 AI 伦理教育,提升公众对 AI 风险的认知,形成多方共治的格局。

七、结论

2026 年,AI 元年的开启,标志着人工智能从技术狂欢迈入价值共生的全新阶段。NSP 范式的突破让 AI 读懂世界,具身智能与多智能体系统让 AI 走进现实,成本下降与生态完善让 AI 规模化落地成为可能。ToC 超级应用与 ToB 垂直场景的双轨爆发,正在重构产业格局与生活方式,印证了 AI 作为核心生产力的巨大价值。

同时,我们也需清醒认识到,AI 元年并非技术的终点,而是全新的起点。伦理安全挑战、就业结构重构、数字鸿沟等问题,需要政府、企业与社会共同应对。对于企业而言,唯有坚持价值导向、精准落地场景,才能在 AI 浪潮中把握机遇;对于个人而言,唯有主动重构能力体系、与 AI 协同共生,才能实现自我价值的提升。

2026 AI 元年,不仅是技术变革的里程碑,更是人类社会迈向智能时代的重要转折点。在技术创新与风险管控的平衡中,在商业价值与社会价值的统一中,AI 将逐步融入经济社会的每一个角落,推动人类文明迈向更高质量的发展阶段。拥抱 AI、适配 AI、引领 AI,将成为这一时代的核心主题。

八、参考文献

[1] 科技云报到. 2026,AI 开启“共生智能”新纪元[EB/OL]. 2026-01-19.

[2] 金加德. 2026,AI 应用元年——技术人如何跨越“模型”与“落地”的鸿沟[EB/OL]. 阿里云开发者社区, 2026-01-20.

[3] 华夏时报. L3 级自动驾驶商业化落地再提速,元戎启行:2026 年力争累计交付突破一百万辆[EB/OL]. 2026-01-16.

[4] Universitas Muhammadiyah Sidoarjo Repository. Artificial Intelligence in 2026: Predicting Breakthroughs and Challenges[R]. 2026.

[5] 北京智源人工智能研究院. 2026 十大 AI 技术趋势[R]. 2026.

[6] 国务院. 人工智能 + 行动实施方案[Z]. 2025.

当 AI 长出身体,从能听会说到能看会动!Agora Convo AI World 拉斯维加斯之夜活动回顾

主笔:周森

审校:小炫

编辑:陈述

AI 不再仅仅是屏幕里的对话框,从能感知情绪的陪护机器人,到具备实时翻译能力的智能眼镜,AI 硬件化成为 CES 2026 呈现的重要趋势。

然而,在 AI 硬件热潮背后,行业也在迫切寻找一个答案:当 AI 试图长出「身体」,它需要怎样的底层架构与交互逻辑?

1 月 9 日晚,Agora(声网兄弟公司)联合 RiseLink(博通集成)在拉斯维加斯 The LOFT at Cabo Wabo Cantina 举办了 Convo AI World 论坛活动。

这场吸引了近 300 位全球科技精英参与的盛会,意在为这股 AI 硬件热潮指引风向。

两家企业不仅联合发布了基于 BK7259 芯片的 R2 全场景 AI 机器人开发套件,更首次系统性地提出了「物理 AI 的蓝图」。

△ 活动现场

具身 AI 的蓝图:从「工具」到「生命形态」

当前,行业正处于从文本模型、语音助手,迈向具备长期记忆、情绪理解与陪伴能力的 AI 伙伴的早期阶段。

Physical AI,本质上是具身智能(Embodied AI) 在消费级市场的落地呈现。AI 硬件不再是冰冷的电子零件,而是一种正在形成的数字生命形态。

由 Agora 与 RiseLink 联合提出的 Physical AI 蓝图,则试图为下一阶段的具身智能发展提供一套以体验为核心的设计方法论。

Tony Wang 在演讲中强调,Physical AI 的关键不在于堆砌硬件参数,而在于对话体验,即在复杂环境中理解语境、识别说话者并感知情绪的能力。

未来,AI 的核心语言将从单向的「指令」彻底转变为双向的「对话」,其商业模式也将从硬件单次销售,转向以订阅制为核心的长期服务。


△ 发言嘉宾:Tony Wang,Agora 联合创始人兼 CRO

张鹏飞博士进一步阐述道,Physical AI 时代的竞争已演变为协同效率的竞争。想要成为或持续保持第一,前提是与各自领域中已经处于领先位置的伙伴深度协作。

RiseLink 将通信、算力与功耗管理深度整合,配合 Agora 的 RTC 实时互动能力,构成了 Physical AI 的基础引擎:以低延迟保障交互的自然性,以高能效支撑长时间的在线陪伴。

△ 发言嘉宾:张鹏飞博士,RiseLink(博通集成) CEO

真实的 AI 堆栈:重构技术底层

当 AI 跨越数字边界、从云端软件形态进入物理硬件,底层的技术架构不应该只是「模型 + 数据 + 算力」,而需要从「原子」到「比特」实现闭环。

在论坛环节,嘉宾们探讨和回答了什么是「真实的 AI 堆栈」并达成共识:AI 是否好用,取决于设备能否通过物理感知快速理解语境并做出即时反应。

△ Panel: The Real AI Stack

圆桌主持人:Rin Yunis 博士,RiseLink 开发者体验负责人 (中)

圆桌嘉宾: (自左向右)

  • Max Fillin, WowCube CEO
  • Blake Margraff, Healthcare Technology 创始人
  • Amir Eitan, Nanit CPO
  • Lin Chen 博士, Wyze 首席科学家

在架构选择上,边缘(Edge)与云端(Cloud)的分工不再是二选一,而是基于延迟、隐私和成本的精密平衡 。对实时性和隐私敏感的能力更适合本地运行,而需要持续迭代、受成本约束的功能则更适合放在云端,工程实践应从验证出发,再逐步优化边云分配。

在消费级场景中,成本是最硬的约束条件。无论技术听起来多么具有颠覆性,如果缺乏可持续的单位经济模型(Unit Economics),产品终究无法走出实验室成为长期的生意。

同时,嘉宾们达成了一个感性却深刻的共识:AI 必须具备稳定的记忆和一致的行为 。一个今天热情、明天健忘的 AI 硬件,是无法真正建立起用户信任的。

△ 圆桌嘉宾:Max Fillin, WOWcube CEO(左)

这种信任的建立,在家庭与健康等强私密场景下尤为微妙。品牌的真实投入与清晰的价值传递,远比罗列一堆天衣无缝的安全技术术语更有效。 用户对 Physical AI 的接受度,往往并不取决于你背书了多少项加密协议,而取决于极其直观的交互体感,即:反馈要即时(低延迟)、过程要透明(可解释)、底线要有人守(人类参与)。

△ 圆桌嘉宾:Lin Chen 博士, Wyze 首席科学家

应用与具身落地:AI 硬件的场景爆发

Physical AI 最令人兴奋的特质在于它的多模态能力,以及在各个场景的迅速渗透。

△ WOWcube(左):将经典的 2x2 魔方形态与 24 个高分辨率屏幕相结合,通过扭转、倾斜和触觉交互,让玩家在立体的物理空间中体验沉浸式的游戏与应用。

△ Wyze(右上): 新款户外安防摄像头采用贴纸式安装方式固定在窗户上,可从室内进行户外录像

△ Nanit Pro(右下): 全功能婴儿监控系统,新增用于记录宝宝成长发育的功能

在医疗与健康领域,Physical AI 的价值在于它能实时处理复杂的生理信号,并以人类能理解、能接受的方式进行交互,从而在专业性与亲和力之间找到平衡。

Blake Margraff 指出,AI 在医疗中的落地绝非简单的自动化,而是要实现「自动化的患者监测与干预」。

△ 圆桌嘉宾:Blake Margraff,Healthcare Technology 创始人

Amir Eitan 则从育儿与家庭监测的角度补充道,真正的信任来自于 AI 能在特定场景下提供「可解释的反馈」。

△ 圆桌嘉宾:Amir Eitan,Nanit CPO

在 AI 陪伴的主题论坛中,各位嘉宾围绕 AI 陪伴产品在儿童与家庭场景中的实际落地展开话题。

△ Panel:Where AI Companionship Comes to Life

圆桌主持人:Patrick Ferriter,Agora 产品与市场高级副总裁(左下)

圆桌嘉宾:

  • 孙兆治,珞博智能 CEO(左上)
  • Angela Qian,灵宇宙 Luka AI 战略负责人 (右上)
  • Wayne Zhang, Dify Chief of Staff(右中)
  • Margo Wang,Lgenie &灵机一动 Agent 市场总监(右下)

稳定性和一致性是影响儿童用户对 AI 硬件接受度的关键因素。无论是故事内容、角色设定还是互动方式,一旦发生变化,都会显著影响使用体验。

低延迟是实时陪伴场景中的基本要求,是建立用户与产品情感连接的底线,响应过慢会直接削弱互动的自然感。

长期留存更具挑战性。吸引用户首次尝试与长期留存两者的差异性需要引起重视,长期留存更具挑战性,需要 AI 在持续使用中形成稳定的互动节奏和情感连接,而不仅是单次回应。

安全与责任方面需要引入多层防护思路,包括年龄匹配内容、实时干预机制、以及对儿童隐私的明确告知与限制。当 AI 承担陪伴角色时,如何在维持互动亲密性的同时设立清晰边界,仍是行业需要持续面对的问题。

△ Fuzozo 芙崽(左上):面向 Z 世代的 AI 养成系潮玩

△ Luka AI Cube(右上):灵宇宙小方机,儿童 AI 学伴

△ Lgenie (左下):小匠宠物陪伴小车 & 四足桌面机器人

△ 海马爸比(右下): AI 智能婴儿看护器

在产品演示环节,Diana Zhu 博士主持发布了 Choochoo AI 教育机器人。她提到,Choochoo 能够实现流畅的视觉与动作反馈,核心在于集成了 RiseLink 的高集成度 SoC 方案。该芯片在单颗硅片上整合了 Wi-Fi 连接、音视频处理与 AI 加速引擎,使得开发者能够绕过复杂的底层硬件调优,直接在 R2 套件上通过简单的 API 调用,实现原本需要高性能服务器才能支撑的「视觉-语言-动作」协同。

△ 发言嘉宾:Diana Zhu 博士,RiseLink 美国负责人

作为首款由 RiseLink 芯片与 Agora 对话式 AI 引擎深度驱动的教育机器人,Choochoo 不仅能听懂孩子的提问,更能通过视觉传感器「看」到周围的环境与孩子的动作,并做出相应的物理反馈。

△ Choochoo / 延伸阅读:对话式 AI 升级,不仅能看还能动

值得一提的是,作为 R2 全场景 AI 机器人开发套件标杆案例,陆吾智能旗下的桌面机器人「陆卡卡」也同步亮相。现场,陆卡卡展示了如何在紧凑的形态下实现高频、低延迟的 AI 交互。

△ 陆卡卡 / 延伸阅读:桌宠陆卡卡,一只「兵蚁」从二次元走进现实

在两款极具代表性的具身智能产品身上,我们看到,当 AI 拥有了强大的「大脑」(大模型)与灵敏的「身体」后,交互的边界已彻底被打破。两款产品的发布,共同定义了 AI 硬件的新高度,同时也标志着基于 Agora 与 RiseLink 合作的 AI 方案已经完全成熟。

在快闪分享环节,Joey Jiang 分享了打造 AI 原生硬件的最短路径,强调了模块化硬件对快速实现概念落地的意义。他指出,AI 原生硬件的开发不应再遵循「从零打样」的旧逻辑。通过 Seeed Studio 提供的模块化感知节点(如传感器、视觉模块)与 RiseLink 方案的即插即用式结合,硬件原型的验证周期可以从数月缩短至几周。这种「搭积木」式的开发模式,正是初创团队在 Physical AI 浪潮中抢占市场窗口期的最短路径。


△ 发言嘉宾:Joey Jiang,Seeed Studio 销售副总裁

Kim Jin 分享了打造糯宝 AI 机器人的背后故事。在研发背后,团队耗费大量精力对用户意图的深度理解。通过多模态感知,敏锐地捕捉视觉、触觉与语音背后的感性信息,实现拟人化的回复。这种交互不只是指令的执行,而是基于对用户意图的精准洞察,让机器人产生真实的「情感共鸣」。这标志着 Physical AI 真正跨越了工具属性,进化为懂得用户灵魂的情感伴侣。

△ Pophie (机器灵动) 产品负责人 Kim Jin

△ Maxevis(左):迈威儿童拍学机

△ Pophie 糯宝(右):桌面级情感陪伴机器人

隐私、授权与信任:环境式 AI 的底线

随着环境式 AI(Ambient AI)走向「始终在线」,隐私与信任已不再是合规问题,而是产品体验本身。用户真正担心的并非模型出错,而是设备在「不被察觉的情况下」收集和使用数据。

△ Panel:When AI Is Everywhere: Redefining Data Privacy, Consent, and Trust

圆桌主持人:Ramana Kapavarapu,Agora 首席信息安全官 (CISO) & IT 运营负责人(中)

圆桌嘉宾:(自左向右)

  • Diana Zhu 博士,RiseLink 美国负责人
  • Joe Tham,Ellie 海马爸比联合创始人
  • Gibran Mourani,MiniMax 全球客户经理
  • 卜峥,Kaamel AI 联合创始人兼 CEO

△ 成立于 2021 年底的 MiniMax 刚刚宣布港股上市,成为从成立到 IPO 用时最短的 AI 公司。大家首先向 MiniMax 的 Gibran Mourani 道贺。

围绕隐私实践,嘉宾们形成了一个明确共识:说到做到、做到可见。

透明性: 相比冗长的隐私条款,产品应在交互层面清晰呈现系统是否在监听、收集了什么数据,以及用户如何即时控制这些行为。透明性体现在硬件指示、软件状态和使用流程中,比如用物理指示灯直观地告诉用户系统是否在监听。

边缘保护: 通过边缘计算最小化数据流动,让原始语音和视觉数据停留在本地,是保护隐私的最有效路径。对多数场景而言,无需上传云端、本地处理并仅传递必要信号,既有助于隐私保护,也降低了系统暴露面。

响应机制: 谈及安全事件响应,需要成熟、结构化的应对机制,而非临时决策。快速隔离、明确影响、及时修复与复盘改进,比短期业务考量更重要。过往大型数据泄露案例反复证明,延迟或回避只会放大长期损失。

真正可规模化的信任,来自硬件与软件的一致设计以及可实时验证的控制能力。认证和合规是基础,但只有当系统行为与承诺持续一致,用户对「无处不在的 AI」才会产生长期接受度。

△ 活动现场

AI 具身化不可挡!

纵观整场活动,我们可以从三个层面理解这场关于 Physical AI 的深刻变革:

技术本质: 从「挂载」到「具身」。 AI 不再是硬件外挂的一个功能,而是通过专用芯片和实时通讯协议,深度融合进硬件的神经系统。

交互范式: 从「指令」到「共生」。 当 AI 能够理解语境、感知情绪并拥有长期记忆,它就从一个「好用的工具」进化为一个「理解你的物种」。对话不再是手段,而是其存在的形式。

商业本质: 从「买断」到「订阅」。 物理 AI 的核心价值在于其随时间不断进化的能力。厂商卖出的不再是零件,而是长期的服务与情感陪伴。

在 Agora 和 Riselink 两家公司和来自人工智能、芯片和硬件、AI 算法,以及数字健康、家居安防、AI 陪伴和教育等领域的数十家 AI 软硬件企业代表和顶尖专家的背书下,AI 将跳出单纯的数字世界,开始在物理世界中,真正长出它的身体。■

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

近年来,随着AI大模型、传感器技术和机器人硬件的进步,具身智能(Embodied AI)逐步从理论探索迈向实际部署。2025年后,行业进入“生态构建”关键期,企业与政府开始联合推进标准化、平台化和开放化发展 。2026年被视为具身智能实现多场景渗透与产业闭环验证的重要节点。OpenAtom openKylin(简称“openKylin”)社区作为以技术创新为目标的根社区也已经着眼布局此领域。

在 Community SIG 的协调组织下,openKylin 社区 ROS SIG、OpenLoong SIG、RISC-V SIG、Release SIG 四大 SIG 凝心聚力、分工协作,正式启动 RISC-V 架构具身智能人形机器人适配计划,此次计划填补了社区在具身智能人行机器人领域的生态空白。
联合SIG工作计划
01openKylin适配运行
在2026年2月上旬,基于openKylin桌面版本完成ros2 jazzy core/base/desktop 在超睿物理硬件平台上的可运行验证。确保核心包可以正常安装卸载,模拟程序(如 turtlesim)可以正常运行。
02测试验证ROS软件包
在2026年3月中旬,开始基于机器人真机和openKylin系统测试验证 ROS 软件包。并在3月下旬基于人形机器人进行功能演示。
03贡献ROS代码和补丁
完成所有功能测试和演示后按照社区规范向 openKylin 社区贡献 ROS相关代码和补丁。目前该计划聚集上海苦芽科技有限公司、先进计算与关键软件海河实验室、麒麟软件有限公司、OpenLoong社区、超睿科技(上海)有限公司。

openKylin社区也欢迎更多对此计划感兴趣的组织加入,共同推动RISC-V架构具身智能人形机器人的生态繁荣!

“通用性不再是主要瓶颈,部署中的任务集熟练度和可靠性才是决定机器人能否真正落地的关键。”在近期的一场采访中,智元机器人合伙人、首席科学家罗剑岚称,2026 年是机器人从会做很多事但每个事做得不太好走向把事情做好并落地的关键节点,要求学习范式从静态离线训练升级为部署学习再部署的整套数据闭环系统。

 

他表示,正是基于这个判断,智元机器人具身研究中心提出了 SOP(Scalable Online Post-training),一套面向真实世界部署的在线后训练系统。SOP 的核心目标是,让机器人在真实世界中实现分布式、持续的在线学习。

 

据罗剑岚透露,智元今后会在所有机器人上应用 SOP。今年,智元计划部署比现在大几个数量级的机器人,真正找到机器人真实场景部署和真实场景落地的 Scaling law。

 

要在真实世界中大规模运行,通用机器人必须同时满足两个看似矛盾的要求:在复杂多变的环境中保持稳定性与可靠性;在处理差异巨大的任务时,仍具备良好的泛化能力。现有 VLA 预训练模型已经提供了强大的通用性,但真实世界的部署受困于更高的任务专精度要求以及离线数据采集方式的边际效益递减,往往需要通过后训练获得更高的任务成功率。

 

然而,当前主流的 VLA 后训练方法仍受离线、单机、串行采集等因素制约,难以支撑高效、持续的真实世界学习。这些限制并非源自具体算法,而是来自学习范式本身。智元方面介绍,SOP 改变的不仅是训练范式,更是机器人系统的生命周期。如果说 VLA 让机器人第一次具备了通用理解与行动能力,那么 SOP 所做的是让众多机器人的经验共同驱动智能的快速成长。

 

“SOP 目前不是完全开源的,但不排除未来开放的合作形式。”罗剑岚表示,智元从成立之初就坚持走生态开放的路线,希望跟更多厂商一起共建 SOP,把 SOP 的闭环真正接入到业务流程里。SOP 不是封闭系统,而是一种新的持续学习、在线学习、协同进化的方式,任意的后训练算法和模型都可以接进来,智元会开放一些 SOP 的关键模块和接口。

 

从长远来讲,智元的目标是构建一个开放的机器人在线学习生态,不同的机器人本体都可以接入,让数据共享上传到云端一个大脑,数据回传回来并不断进化,给大家使用。

SOP:分布式在线后训练框架

SOP 采用 Actor–Learner 异步架构,本身是一套通用的框架,可以即插即用的使用任意后训练算法,让 VLA 从在线经验数据中获益。智元选取 HG-DAgger(交互式模仿学习)与 RECAP(离线强化学习)作为代表性算法,将其接入 SOP 框架以进化为分布式在线训练。

 

据介绍,他们将 VLA 后训练从“离线、单机、顺序”重构为“在线、集群、并行”,形成一个低延迟的闭环系统:多机器人并行执行 → 云端集中在线更新 → 模型参数即时回流。

 

 SOP 架构设计图

SOP 的关键优势包括:

• 高效状态空间探索。分布式多机器人并行探索,显著提升状态–动作覆盖率,避免单机在线学习的局限。

• 缓解分布偏移。所有机器人始终基于低延迟的最新策略进行推理采集,提升在线训练的稳定性与一致性。

• 在提升性能的同时保留泛化能力。传统的单机在线训练往往会使模型退化为只擅长单一任务的“专家”, SOP 通过空间上的并行而非时间上的串行,在提升任务性能的同时保留 VLA 的通用能力,避免退化为单任务专家。

实验评估:性能、效率与 Scaling Law

实际效果方面,智元围绕三个方面对 SOP 进行了系统性评估。

 

首先是 SOP 能为预训练 VLA 带来的影响。实验结果说明,在各类测试场景下,结合 SOP 的后训练方法均得到了显著的性能提升。

 

相比预训练模型,结合 SOP 的 HG-Dagger 方法在物品繁杂的商超场景中实现了 33% 的综合性能提升。对于灵巧操作任务(叠衣服和纸盒装配),SOP 的引入不仅提升了任务的成功率,结合在线经验学习到的错误恢复能力还能明显提升策略操作的吞吐量。结合 SOP 的 HG-Dagger 方法让叠衣服的相比 HG-Dagger 吞吐量跃升 114%。SOP 让多任务通才的性能普遍提升至近乎完美,不同任务的成功率均提升至 94%以上,纸盒装配更是达到 98%的成功率。

 

 

为了进一步测试真机 SOP 训练后 VLA 模型是否达到专家级性能,他们让 SOP 训练的 VLA 模型进行了长达 36 小时的连续操作,模型展现出了惊人的稳定性和鲁棒性,能够有效应对真实世界中出现的各种疑难杂症。

 

其次,智元使用了三种机器人队伍数量(单机、双机、四机配置),在同样的数据传送总量的基础上,进行了比较。实 验结果表明,在相同的总训练时间下,更多数量的机器人带来了更高的性能表现。在总训练时间为 3 小时的限制下,四机进行学习的最终成功率达到了 92.5%,比单机高出 12%。

 

他们认为,多机采集可以有效阻止模型过拟合到单机的特定特征上。同时,SOP 还将硬件的扩展转化为了学习时长的大幅缩短,四机器人集群相比单机能够将模型达到目标性能的训练速度增至 2.4 倍。

 

 SOP 学习效率提升

 

此外,他们探究了 SOP 和预训练数据之间的关系,把总量为 160 小时的多任务预训练数据分为了三组:20 小时,80 小时和 160 小时,分别训练一组初始模型后再进行 SOP。接着发现,预训练的规模决定了基座模型和后训练提升的轨迹。SOP 能为所有初始模型带来稳定的提升,且最终性能与 VLA 预训练质量正相关。

 

同时,对比 80 小时和 160 小时实验效果,在解决特定失败情况时,在轨策略经验带来了非常显著的边际效果。SOP 在三小时的在轨经验下就获得了约 30%的性能提升,而 80 小时额外人类专家数据只带来了 4%的提升。这说明在预训练出现边际效应递减的情况下,SOP 能够高效突破 VLA 性能瓶颈。

 

 SOP 在不同预训练数据规模下的对比

 

最后,智元将机器人队伍放到了预训练模型没有见到的真实新环境下执行任务,并使用 SOP 进行在线训练。当机器人被置于不同的环境时,即便是同样的任务,起初成功率和吞吐量如预期般下降,但在 SOP 介入仅仅几个小时后,机器人的性能便显著回升,能够鲁棒地执行相对复杂的实际任务。

科技云报到原创。

2026年伊始,港股市场被AI热潮彻底点燃。

1月8日,智谱AI以“全球通用大模型第一股”身份登陆港交所,1164倍超额认购、首日528亿港元市值,拉开国产AI企业资本化序幕。

仅隔一天,MiniMax接力挂牌,1837倍超额认购、盘中涨幅超109%、市值破千亿港元,刷新港股AI新股热度纪录。

短短48小时,两家头部企业募资近百亿港元,市值总和逼近1700亿港元,这场资本盛宴背后,是市场对AI产业价值的集体押注。

同时,北京智源人工智能研究院发布《2026十大AI技术趋势》,明确指出AI发展的核心转变:从“预测下一个词”的语言游戏,迈向“预测世界状态”的物理规律探索。

当资本泡沫与技术突破碰撞、商业化探索与产业需求对接,2026年的AI行业不再是单一技术的狂欢,而是一场涉及认知范式、智能形态、商业逻辑的全面重构。

 

 

技术成熟度与产业需求的双重共振

AI企业的密集上市,标志着行业正式告别“依赖融资续命”的草莽阶段,迈入“资本化造血”的关键转折期。

这一转变,是技术成熟度与产业需求的深度契合,更暗藏着行业发展的逻辑变化。

从技术层面看,大模型已从参数竞赛进入能力沉淀期,智源报告指出,2026年AI将实现从“感知”到“认知”的跨越,NSP(Next-State Prediction)范式让模型具备物理世界规律理解能力,为商业化提供了技术基础。

从产业需求看,全球AI市场规模将从2025年的7575.8亿美元增至9000亿美元,同比增长18.7%,延续了高增长态势。

国务院“人工智能+”行动将AI定位为新型工业化 “必答题”,工业、金融、医疗等领域的智能化需求迫切,为技术落地提供了广阔场景。

资本的选择也暗藏趋势密码,AI应用与多模态世界模型正成为AGI共识方向。

这意味着,资本不再盲目追逐参数规模,而是聚焦“技术落地能力”与“场景适配性”,这种理性回归将推动行业从野蛮生长走向高质量发展。

从“预测文本”到“理解世界”

智源十大趋势的核心洞察,是AI技术范式从NTP(Next Token Prediction)到NSP(Next-State Prediction)的转变。

这一变革不仅重塑了技术研发逻辑,更将AI的应用边界从数字空间拓展至物理世界,催生了一系列颠覆性创新。

2026年,“能否理解世界运转规律”将成为衡量大模型实力的核心标准。

不同于传统语言模型仅能生成连贯文本,世界模型通过多模态数据统一编码,自主学习物理动态、时空连续性与因果关系,实现“理解-预测-规划”的完整认知闭环。

这一技术突破,让AI从“文字工具”升级为“世界模拟器”。

在海外,OpenAI的Sora 2展现出对真实世界的深度模拟能力,World Labs的RTFM 模型可从单幅图像创建3D空间;在国内,智源悟界・Emu3.5成为NSP范式的标杆,蚂蚁百灵大模型在多模态生成、方言识别领域逼近GPT-5水平。

世界模型的成熟将重构多个行业。自动驾驶领域,通过模拟复杂路况降低实车测试成本;机器人训练中,虚拟场景预训练大幅提升实体机器人的环境适应能力;科研领域,模拟分子运动加速新药研发。

智源报告指出,这一技术将成为AGI的核心共识方向,2026年将有更多企业加入布局,推动认知智能进入规模化应用阶段。

如果说世界模型是AI的“大脑”,具身智能就是让大脑“走进现实”的载体。

2025年的“百机大战”后,2026年具身智能行业进入“出清期”,同质化企业因资金断裂或技术不足被淘汰,头部企业凭借订单优势与技术积累形成格局。

技术层面,“世界模型+强化学习”的闭环进化模式成为主流,智源发布的通用具身大脑RoboBrain2.0与小脑基座RoboBrain-X0,实现跨场景多任务轻量化部署;海外Tesla Optimus 2.5已应用于工厂生产、农场运营等真实场景。

商业化方面,行业从实验室验证转向量产交付,智元、乐聚智能等企业推进上市进程,标志着具身智能从“技术演示”走向“产业工具”。

值得注意的是,具身智能的爆发离不开AI大模型的支撑。大模型赋予机器人自然语言交互能力与复杂任务规划能力,让机器人从“专用设备”升级为“通用助手”。

2026年,工业制造中的精密装配、服务业的个性化服务、医疗领域的辅助诊疗,将成为具身智能落地的核心场景,推动实体产业智能化转型进入深水区。

面对日益复杂的任务需求,单智能体的能力天花板逐渐显现,多智能体系统(MAS)成为解决复杂问题的关键路径。

不同于单智能体的独立工作模式,MAS通过智能体间的协作分工,实现“1+1>2”的认知升级,其逻辑契合“多样性预测定理”——足够多且独立的智能体协作,可使系统准确率逼近100%。

2026年,多智能体发展的核心突破是“协议标准化”。

MCP与A2A通信协议被捐赠给Linux基金会后实现分层融合,成为Microsoft、Google等巨头及LangChain、AutoGen等框架的原生支持协议,IBM计划将ACP协议并入A2A,推动行业标准统一。

这意味着,不同企业开发的智能体将拥有通用语言,能够跨平台协作完成复杂任务流。

应用层面,MAS正从科研领域向产业场景渗透。例如,金融领域的智能体团队可协同完成风险评估、投资分析、客户服务;工业场景中,生产智能体、质检智能体、物流智能体形成协作网络,优化全产业链效率。

ToC与ToB的价值兑现期来临

技术突破最终要通过应用落地实现价值闭环。2026年,AI应用将呈现“ToC超级应用竞逐+ToB垂直突破”的双轨格局,经历早期概念验证的“幻灭期”后,真正可衡量的商业价值将集中爆发。

“All in One”的超级应用成为C端AI竞争的核心战场。这种以单一入口实现信息获取、任务规划、问题解决的闭环模式,依托高算力成本与庞大用户数据迭代,正在重塑互联网流量格局。

海外,ChatGPT、Gemini日活过亿,Gemini已取代Google Maps原生语音助手,实现功能内化;国内,蚂蚁“灵光”AI助手上线6天下载量破200万,支持30秒生成小应用与全模态输出;字节豆包依托抖音生态引流,月活位居全球第二,仅次于 ChatGPT。

 

超级应用的竞争本质是生态整合能力的较量。

字节跳动凭借短视频流量优势,将AI助手深度融入内容创作、社交互动、生活服务场景;阿里以千问App为核心,整合消费、支付、物流等电商生态资源;蚂蚁集团则依托金融科技优势,让“灵光”助手具备理财咨询、生活缴费、政务办理等复合功能。

2026 年,超级应用将进入“生态闭环决战”阶段,能够实现跨场景无缝衔接、个性化精准服务的产品,将定义AI时代的“新BAT”格局。

与此同时,垂直赛道成为中小玩家的突围机会。多模态、大健康、教育等高ROI领域呈现“低频高价值”特征,Google Nano Banana Pro单次调用价格为文本模型的几十倍,但仅需1.5%调用量即可实现同等收入。

国内,蚂蚁“蚂蚁阿福”健康App聚焦慢病管理、健康咨询等场景;MiniMax的海螺AI深耕视频创作赛道,成为自媒体、设计师的必备工具;字节即梦AI在教育领域的个性化辅导功能,精准击中用户痛点。

 

这些垂直应用凭借高用户粘性与强付费意愿,正在构建可持续的盈利模式,成为C端AI商业化的重要补充。

2025年,95%的GenAI Pilot项目未产生可衡量影响,B端AI应用进入“幻灭低谷期”,核心症结集中在数据质量、系统集成、成本失控三大问题:46%企业将“现有系统集成”列为首要障碍,AI应用仍依赖手动操作ERP/CRM;多智能体的涌现行为失控、调试困难导致落地受阻;死循环通信、自我对话等问题造成高额成本损耗,曾有4个LangChain智能体11天消耗4.7万美元的案例。

但行业拐点已现,2026年下半年将迎来V型反转。随着数据治理工具的成熟与行业标准接口的统一,AI与企业现有系统的集成效率大幅提升,多智能体协议标准化解决了互操作性问题,算法优化与硬件升级降低了推理成本,让AI应用的ROI可量化、可追踪。

2026年,B端AI的落地将呈现三大特征:一是行业定制化深化,通用大模型通过微调适配特定场景,例如金融领域的风控模型、制造领域的质检模型;二是轻量化部署成为主流,边缘计算与模型压缩技术让中小企业无需高额算力投入即可享受AI服务;三是价值闭环明确,从“降本”向“增效”“创新”延伸。

 

繁荣背后的隐忧与破局之道

AI产业的爆发式增长,并未掩盖底层矛盾与潜在风险。盈利模式模糊、算力瓶颈、安全合规压力、人才缺口等问题,正在考验行业的可持续发展能力,也成为2026年AI企业必须突破的关键关卡。

智谱与MiniMax的上市招股书,揭开了AI企业的盈利难题。MiniMax三年累计亏损近13亿美元,C端业务依赖营销投放驱动增长,“高投入-高增长-低盈利”模式难以持续,用户留存困境导致营销效率低下。

智谱虽实现亿级收入,但仍未实现全面盈利,大模型研发的高额算力成本与人力成本,对现金流构成持续压力。

这并非个例,当前全球头部AI企业中,除少数企业通过生态协同实现盈利外,多数仍处于“投入大于产出”的阶段。

破局路径集中在三个方向。一是成本优化,通过MoE架构、混合注意力机制等技术创新提升模型效率;二是商业模式创新,B端企业从“一次性部署”转向“订阅制服务”,C端产品深化“免费+增值”模式,提升ARPU值;三是场景深耕,聚焦高价值垂直领域,例如AI制药等高毛利场景成为盈利突破口。

2026年,盈利能力将成为AI企业的核心竞争力,无法构建可持续盈利模式的企业,将在行业洗牌中被淘汰。

算力是AI产业的核心基础设施,2026年将迎来“需求爆发+格局重构”的双重变革。

随着生成式AI与智能体的大规模落地,推理算力需求首次超过训练算力。根据IDC发布的《全球人工智能算力发展白皮书》数据显示,2025年全球AI算力市场规模已突破60万亿元,预计到2026年底将达到120万亿元,正式迈入百万亿规模时代。

但当前算力格局仍受海外垄断,国内高阶AI芯片缺口明显,成为制约产业发展的关键瓶颈。

为突破算力困境,国内正从技术创新与生态建设双管齐下。

一方面,开源芯片架构成熟与国产AI芯片崛起,打破英伟达垄断,2026年中国高阶AI芯片本土份额有望接近 50%,中芯国际、华虹的BCD工艺产能利用率满载;

另一方面,国家层面加快“东数西算”工程建设,推动训练推理分离架构普及,这些举措共同推动算力成本持续下降,为AI普惠奠定基础。

AI技术的快速发展,让安全风险从“模型幻觉”升级为更隐蔽的“系统性欺骗”,深度伪造、模型投毒、数据泄露等问题频发。

据国际刑警组织数据,2025年全球深度伪造诈骗案件数量同比增长87%,涉案金额超30亿美元,安全合规成为企业落地的“生死线”。

2026年,传统网络安全防御体系已难以抵御AI原生攻击,行业正面临从“被动修补”到“原生免疫”的紧急转型,AI安全攻防正式进入“军备竞赛”新阶段。

技术层面,Anthropic的回路追踪研究致力于从内部理解模型机理,OpenAI推出自动化安全研究员,智源研究院联合国际顶尖机构发布全球首个AI欺骗系统性国际报告。

监管层面,欧盟《人工智能法案》已于2025年2月生效,中国出台生成式AI版权保护细则,全球形成差异化监管框架,要求企业公开训练数据清单、建立内容审核机制,合规成本成为企业必须承担的运营成本。

2026,AI成为社会基础设施的元年

站在2026年的时间节点回望,AI产业已完成从“技术概念”到“社会基础设施”的蜕变。

智谱与 MiniMax 的上市,标志着资本对 AI 价值的认可;智源十大趋势的落地,展现了技术从 “实验室” 到 “产业界” 的跨越;ToC与ToB应用的爆发,让AI深度融入日常生活与生产经营。

2026年,AI将实现从“认知”到“创造”的跨越,AI+新能源、AI+医疗、AI+制造等跨界融合深化,推动实体经济高质量发展,重塑就业结构与生活方式,新岗位不断涌现,智能化服务覆盖各个角落。

但AI的发展并非坦途,盈利模式的探索、安全风险的防控、伦理边界的界定,仍需要行业、政府、社会的共同努力。

正如智源研究院理事长黄铁军所言,AI的发展要重视“结构决定功能,功能塑造结构”的相互作用,只有让技术发展与社会需求同频共振,才能推动AI稳健迈向价值兑现的新阶段。

2026年,既是AI产业的价值爆发年,也是行业规范的奠基年。当资本的热度褪去、技术的泡沫消散,真正能够解决社会痛点、创造实际价值的AI企业,将在时代浪潮中脱颖而出。

而我们每个人,既是这场智能革命的见证者,也是参与者和受益者,AI与人类的共生共荣,正在开启新的篇章。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、数博会、国家网安周与全球云计算等大型活动的官方指定传播媒体之一。深入原创报道云计算、人工智能、大模型、网络安全、大数据、区块链等企业级科技领域。

二十年,是一个坐标。从 Web 2.0 的萌芽,到移动互联网的爆发,再到云原生时代的重塑,D2 技术大会伴随开发者走过了整整二十载风雨。

今天,我们站在了一个更加宏大的分水岭。AI 不再是遥远的科幻逻辑,它正以一种近乎“重构”的姿态,系统性地改写终端技术的底层范式:从代码生成的协作,到架构设计的逻辑,再到交互体验的边界。

第 20 届 D2 技术大会,年度主题定为——「AI 新」。

它既是我们的时代判断,也是我们的集体宣言。它是 AI 驱动的创新,也是终端人对技术边界追逐的热爱之新

此刻,我们正式向全球开发者、架构师、技术领袖及创新实践者发出邀请:来 D2,分享你对 AI 时代终端技术的独到见解,共同定义下一个二十年的生产力!


七大核心专场,期待你的真知灼见

我们渴望真实工程中的突破,珍视深度思考后的落地,让技术回归解决问题的初衷。

01 AI Coding:从写代码开始,重构工程本身

这是本届 D2 的主干专场。AI 正在从“辅助助手”升级为“协作伙伴”。

征集方向:

  • AI Agent 编程工具的研发与设计

侧重 Agent 型 AI 编程工具在本地与远程形态下的架构与产品设计。征集议题包括 IDE 深度集成、上下文采集与记忆管理、代码库索引检索、任务规划与工具调用、执行沙箱与权限控制、审计与回放、可观测性、成本/延迟优化与多模型策略等。重点关注可靠性与可控性:减少误改、支持规范化交付与团队协作。

  • AI-Native 开发实践

聚焦真实项目中 AI 编程的可复用方法。征集包含 Spec 驱动开发(结构化需求/验收标准/契约/测试)、AI 编程 Workflow 探索(从需求到 PR/发布的流水线)、以及团队级 AI 驱动研发实践(流程改造、提示/模板沉淀、质量门禁、效率与质量度量、失败复盘)。重点是“怎么做得稳、做得快”。

  • AI Coding 前沿研究与技术趋势

关注下一代 AI Coding 的关键技术与趋势。征集议题包括长上下文与复杂依赖、代码语义理解与程序分析结合、自动化评测与基准、对齐与安全、多智能体协作、可靠性与可解释性增强等。重点探讨研究如何走向工程落地与可验证的效果提升。

02 AI 创新体验:当交互正在被重写

终端是 AI 被感知的最前线。交互范式的巨变已经发生。

征集方向:

  • UI 范式重塑

探讨从 GUI 向 LUI 或 AUI 的代际演进。聚焦 Agent 驱动下的意图识别、动态 UI 生成及个性化界面即时构建。征集议题包括主动交互设计、多 Agent 协作下的用户反馈回路、以及如何利用 AI 简化复杂业务流的操作门槛。

  • 空间智能体验

聚焦多模态感知与空间计算的深度融合。涵盖视觉、语音、触觉在 3D/XR 环境下的集成交互,以及 AI 驱动的实时场景理解与数据可视化。重点探讨如何利用空间智能让数字世界更符合自然认知,实现高沉浸感的智能反馈。。

  • 具身交互探索

关注 AI 进入物理世界后的交互挑战,从 AI Wearables、AI PC 到机器人具身智能。探讨硬件约束下的自然语言处理、人机交互(HRI)实践及环境感知反馈。重点关注如何通过端侧智能赋予硬件产品生命力,解决真实场景下的交互痛点,探索用户真正愿意买单的终端新价值点。

03 AI 语言 & 框架:模型时代,语言与框架如何进化

当 AI 成为“默认能力”,底层技术如何适配?

征集方向:

  • 语言与编译器演进

探讨编程语言如何适配“人机共写”新常态。征集议题涵盖 LLM 友好型语法设计、智能化类型系统、AI 辅助的编译优化与静态分析等。重点研究如何通过语言特性的进化,提升 AI 生成代码的质量、安全性与复杂逻辑表达力。

  • Agent 框架重构

当 Agent 成为系统编排者,探讨传统框架的抽象层重塑。征集议题涵盖声明式意图驱动的框架设计、元数据驱动的界面自动生成、以及为 AI 重新设计的组件模型。重点关注框架如何提供更高级别的抽象,以支持多 Agent 在复杂业务逻辑中的无缝协作、状态同步与逻辑自治。

  • 智能运行时与内核

推动 AI 从工具层下沉为系统的核心能力。聚焦内置 AI 推理能力的运行时引擎、模型与容器/内核的深度集成,以及 AI 驱动的动态资源调度策略。重点探讨端云协同背景下,如何模糊开发与运行、模型与逻辑的边界,实现具备自适应、自进化能力的智能运行基座。

04 AI 智能测试:质量与效率,不再只能二选一

测试不再是滞后的环节,而是 AI 介入最深、收益最显性的战场。

征集方向:

  • 用例生成与自愈

探讨利用 LLM 实现测试全生命周期的自动化。征集议题包括基于语义理解的单元/集成测试生成、复杂业务场景下的测试数据合成,以及 UI 自动化脚本的自愈(Self-healing)机制。

  • 风险洞察与优化

聚焦利用 AI 提升质量保障的精准度与效率。征集议题涵盖基于变更分析的智能回归测试缩减、线上异常的实时检测与根因定位,以及多维度的质量风险预测模型。探讨如何利用算法在海量代码变更中快速锁定高风险区域,解决快速迭代与质量稳定性之间的核心矛盾。

  • 治理与角色演进

关注 AI 引入后测试流程与组织效能的系统性重构。核心议题包括 AI 测试工具的 ROI 分析、人机协同模式下的 QA 职责重定义,以及在规模化工程中构建“默认内置 AI”的质量防线。探讨如何通过技术赋能,打破质量与效率的零和博弈,重塑技术团队的质量文化与评价体系。

05 AI 智能生产:从工具走向生产系统

关注 AI 在真实业务落地时的“最后一公里”。

征集方向:

  • 业务深度嵌入

探讨 AI 如何从外部辅助工具进化为业务逻辑的核心。寻找在复杂业务场景中的落地架构案例,关注如何处理模型输出的不确定性以交付“确定性”结果。重点探讨 AI 对传统业务流程的深度重构,在提升用户价值的同时,确保生产系统的稳定性、安全性与商业收益。

  • 规模化生产交付

聚焦 AI 从原型验证(PoC)走向规模化交付的工程拐点。征集议题涵盖支持大规模 AI 应用的工程底座、端到端 AI 生产平台的演进、以及 FinOps 成本分析与合规治理。探讨如何构建标准化的平台能力,支撑 AI 跨团队、跨业务的高效迁移与持续稳定运行,实现技术普惠。

  • 全链路协同提效

关注覆盖需求、设计、交付及运维的 AI 全链路闭环。核心议题包括新一代人机协作下的流程重塑、领域专用 Agent 的生产环境编排,以及科学的效能度量方法。探讨如何通过技术与组织的双重演进,实现软件生产体系的跨越式提效,将 AI 潜能真正转化为规模化的实际业务产能。

06 终端技术:重构 AI 时代的性能底座

底层基础设施如何承载高算力与高响应需求?

征集方向:

  • 架构适配与演进

探讨终端架构如何重构以深度兼容 AI 能力,重点研究如何调整传统的软件拓扑结构,以支持 AI 在终端侧的无缝集成、高效编排与复杂的应用状态管理,提升端侧智能的响应实时性。

  • 运行时与性能优化

聚焦通过底层技术突破 AI 运行的性能瓶颈。征集议题涵盖面向 AI 指令集优化的编译器技术、异构算力的极致加速实践,以及轻量化端侧容器演进。探讨如何通过运行时与系统内核的深度协同,在有限的硬件资源限制下,实现极致的推理速度与能效比。

  • 端侧工程与协同

核心议题包括模型量化、蒸馏与剪枝的终端实战、端云协同推理架构,以及隐私安全约束下的端侧学习。探讨如何构建高效的端云配比方案,在保障响应速度与数据隐私的同时,实现计算成本与用户体验的帕累托最优。

07 一人公司:技术人的个体放大器

这是最具时代情绪的专场。AI 正在让“超级个体”成为可能。

征集方向:

  • 全栈生产力飞跃

探讨 AI 如何打破专业壁垒,实现“一个人就是一支团队”。分享利用 AI 协同完成从需求定义、全栈开发、交互设计到市场增长的全链路实践。

  • 商业闭环与实战

聚焦超级个体的商业化落地与可持续经营之道。征集独立开发者的 AI 实战案例,涵盖极致成本控制下的产品生存策略、AI 辅助的商业决策与自动化运营。探讨在 AI 时代,个体如何构建轻量化、高利润的商业模式,并成功应对从单兵作战到规模化营收的真实挑战。

  • 职业路径重构

探讨从“专项开发者”向“产品主理人”转型的思维重构、AI 时代的个人品牌经营,以及个体长期竞争力的构建。研究在组织边界日益模糊的未来,技术人如何利用 AI 工具集寻找更具自主性的创作路径,定义下一代极简且高效的职业范式。


顶尖出品人矩阵:为议题深度护航

本届 D2 各专场由行业资深专家领衔,他们不仅是评审者,更是议题的“合伙人”。

我们寻找的不仅是一个演讲者

更是一个在 AI 工程深水区挣扎过、思考过、最终破局的见证者

  • 隐风| 淘天集团-用户 &内容终端技术负责人

  • 云谦| 蚂蚁集团-高级前端技术专家

  • 悟石| 淘宝闪购-消费者端技术负责人

  • 渚薰| 前淘宝互动游戏专家

  • 偏右| 蚂蚁集团-支付宝体验技术前端平台负责人

  • 张磊| 字节跳动 Web Infra 技术负责人

  • 泠乐| 淘天集团-淘宝终端质量负责人

  • 茹炳晟| CCF TF 研发效能 SIG 主席 / 复旦大学 CodeWisdom 成员

  • 达峰| 蚂蚁集团-平台体验技术部负责人

  • 穆宸| AliExpress-终端技术负责人 / D2 负责人

  • 永霸| 淘天集团-交易终端技术负责人

  • 崔红保| DCloud CTO / uni-app 跨平台框架负责人

  • 秦粤| 阿里云-数据库高级前端专家

  • 梓骞 | 启智云图 CEO / Lovrabet 产品创始人

出品人寄语:“在 D2,我们致力于将前沿的 AI 实践提炼为系统化的技术范式。我们期待与你一同锚定 AI 时代的工程坐标,让每一份实战洞察都汇聚成定义未来的行业基准。”


🌟 为什么来到 D2 舞台

  1. 顶尖技术影响力:D2 是国内终端技术的风向标,线下规模 2000+,线上覆盖数十万专业开发者。

  2. 二十周年里程碑:参与第 20 届这一极具纪念意义的盛会,与业内最具创新精神的技术人同频共振。

  3. 常态化社区联动:优质内容将同步至稀土掘金、InfoQ、AI 产品榜等联合承办方平台,获得持续的行业曝光与认可。

🗓️ 议题提交指南

  • 截止时间: 2026 年 1 月 23 日(请关注官网最新动态)

  • 议题要求:内容具有前瞻性、实战性或深度思考;拒绝纯广告,强调技术细节与真实的踩坑经验

图片

扫码提交议题

二十年是一个里程碑,更是重新出发的起点。在「AI 新」的浪潮中,让我们一起,用 AI 驱动创新,用终端之心热爱创新。


*本文由极客时间企业版代发

国内首个可复现!萝博派对公开人形机器人 “从 0 到跑” 全开源方案

0%
icon展开列表
国内首个可复现!萝博派对公开人形机器人 “从 0 到跑” 全开源方案
今天
img
联发科天玑9500s、8500发布:GPU、光追拉满,红米Turbo 5Max将搭载
今天
img
通用级PixVerse P1的技术突破,揣着进入平行世界的密码
今天
img
Mira公司内乱?CTO被开除,带团队回OpenAI,翁荔上推发言
今天
img
Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
今天
img
刚刚,喝到了千问APP给我点的奶茶
今天
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
今天
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
今天
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
今天
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img

国内首个可复现!萝博派对公开人形机器人 “从 0 到跑” 全开源方案

2026 年 1 月 15 日,萝博派对(Roboparty)在官方 GitHub 仓库正式完整开源双足人形机器人 “萝博头原型机(Roboto_Original)”,并同步启动全球开发者共创计划。

这款搭载拟人步态的 AMP 运控算法、跑步速度达 3m/s 的原型机,凭借全栈透明的技术开放模式,成为目前全球范围内技术成熟度领先的全开源人形机器人。

不同于“只开源代码或只开源结构图”的碎片式开放,本次开源以“可复现、可二开、可验证”为目标,覆盖参考硬件、控制/训练栈、工程化调试与验证方法,以及长期维护的行业 Know-how 共创知识库。

萝博派对希望把“从 0 到跑”做成行业共享的具身 Infra 底座:把路径标准化、把经验工具化、把验证流程公开化,推动行业把时间用在真正的场景与能力突破上。

全栈开源,直击人形机器人开发痛点

人形机器人真正的门槛,往往不在某一个算法点,而在“从设计—装配—标定—训练—验证—迭代”的系统工程。基于此,萝博派对针对行业长期存在的三大核心痛点——闭源导致开发壁垒高、设计规范缺失、架构标准不统一——以“可复现、可二开、可验证”为目标,正式发布双足人形机器人“萝博头原型机”的全栈开源方案,并同步推出“动手学人形机器人问题清单”Know-how 共创文档,推动行业经验从“各自积累”走向“公开共享”。

在硬件层面,萝博头原型机公开 1.2m 身高、30kg 重量级本体的全套结构图纸,覆盖关节排布、线束收束方案以及金属结构件选型标准等关键设计细节。同时,项目同步开放关节模组核心参数、选型指南与拆机报告,并提供国内优质供应商清单,配套完整 EBOM 物料清单与 SOP 组装流程,从采购、装配到复现路径形成闭环,显著降低硬件研发与复刻门槛。

在软件与控制层面,项目开放底层控制全量代码,涵盖模仿运动、感知运动与导航运动三大核心模块,并支持 SMPL-X 人体模型适配,使开发者能够直接复用海量人体动捕数据,减少新任务开发中的微调成本,提升能力迁移效率,缓解传统控制方案在泛化性与工程落地上的不足。同时,萝博头原型机同步开源拟人步态的 AMP 运控算法代码,为步态自然度与运动稳定性的进一步迭代提供可直接复用的技术基础。

在工程化落地层面,萝博派对将研发过程中形成的 sim2real gap 弥补方案、样机测试矩阵与调试经验总结系统化公开,并同步沉淀关键避坑要点与流程规范,帮助开发者与合作团队减少重复试错、提升调试效率,让“跑起来”不再依赖隐性经验,而是可以被复现、被验证、被持续迭代的工程流程。

与此同时,萝博派对长期建设并持续维护“动手学人形机器人问题清单”共创知识库,覆盖行业发展、硬件研发、软件研发与生产制造等关键环节,旨在将行业讨论从“表演型炫技”拉回“实用落地”。该知识库主张人形机器人优先解决行走稳定性、抗摔性等基础能力,并围绕尺寸、重量、散热、成本等量产关键问题展开共建,以“全员编辑、按紧急度排序”的开放机制,将单一团队的经验沉淀升级为“全行业共建的落地指南”,推动行业从“各自试错”走向“协同突破”。

核心突破:性能与步态双达标

萝博头原型机的关键优势,在于“硬件性能”与“控制体验”的同步提升。

在运动能力上,原型机跑步速度达到 3m/s 级别,跻身全球全开源人形机器人第一梯队,回应了行业长期存在的“开源性能滞后于闭源”的刻板印象。为支撑高速与稳定运行,硬件端采用类车规级本体结构与高刚性金属材料,提升力传递效率与整体结构稳定性;同时通过模块化关节模组实现更高的扭矩密度与更快的动态响应,为跑步与复杂动作提供可靠的执行基础。

在控制体验上,萝博头原型机搭载拟人步态的 AMP 运控算法,作为其核心控制能力底座。该算法基于数据驱动范式,并深度适配 Behavior Foundation Model(BFM)预训练框架,通过学习人体动捕数据,使机器人的行走与跑步更贴近人类生物力学特征,在提升动作自然度的同时兼顾稳定性表现,能够在复杂路况中保持更可靠的姿态控制。同时,这一范式显著降低新步态与新任务的微调成本,使步态扩展从“重研发”转向“可迁移、可复用”的工程流程。

对开发者而言,这意味着在不额外承担高昂研发投入的前提下,即可获得兼具高性能与自然步态的人形机器人参考方案,并在此基础上更高效地进行二次开发与场景适配,加速具身能力向真实应用落地。

生态共建:以开源推动协同创新

此次开源是萝博派对推进人形机器人行业协同生态建设的关键一步。在开发者生态层面,团队已搭建面向行业的技术交流与共创网络,吸引上市公司技术负责人、高校科研人员及创业公司核心成员等专业群体加入,形成更高效率的技术交流与资源共享平台,持续推动经验沉淀与问题协作解决。

在商业与产业层面,该项目已获得经纬创投、小米战投、光源资本等机构的千万美元种子轮融资。萝博派对认为,这不仅是对团队技术路线与工程能力的认可,更是对“具身智能 Infra 化”路径的验证:通过开源与标准化,把开发所需的关键链路沉淀为可复用的基础设施,让行业将更多精力投入到真实场景与能力创新之中。

“我们的目标是让具身智能的开发成本降低 80%。”萝博派对团队表示,当硬件不再成为门槛、算法不再是黑盒,具身智能才能真正进入“千行百业”的应用阶段,形成规模化的产业价值。

除开源共创外,萝博派对也为产业伙伴提供 JDM(联合定义制造)设计与联合开发,加速从参考样机到工程化交付的全流程,覆盖结构/电气/控制集成、BOM 与供应链、试产与测试矩阵等关键工作。

目前,全球开发者可通过官方渠道获取核心资源与参与共创:

萝博头原型机开源仓库已在 GitHub 上线,作为从硬件到软件的汇总入口,保持持续更新。

萝博派对 Github :https://github.com/Roboparty/roboto_origin

同时,团队长期维护“动手学人形机器人问题清单”Know-how 文档,鼓励开发者通过社区参与编辑、提交行业痛点与复现经验,共同建设可持续迭代的落地知识库。

“动手学人形机器人问题清单” Know-How 文档:roboparty.com/roboto_origin/doc

萝博派对将持续基于社区反馈优化技术方案,推动行业从“各自为战”走向“协同共赢”,并欢迎全球开发者加入共创,探索人形机器人技术在真实场景中的实用化落地路径。

刚刚,喝到了千问APP给我点的奶茶

0%
icon展开列表
刚刚,喝到了千问APP给我点的奶茶
今天
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
今天
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
今天
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
今天
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
01月14日
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
01月14日
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
01月14日
img

刚刚,喝到了千问APP给我点的奶茶

2026 一开年,智能体的发展立马进入狂奔状态。

本周二,Anthropic 发布 Cowork 掀起了打工人的革命。它不再像 Claude Code 一样专门面向程序员,而是把大模型与智能体能力推进到电脑桌面上,可以解决大部分人的工作问题。

同一时间,谷歌联合 Walmart 等零售商推出了一项专为智能体购物场景设计的开放标准 —— 通用商务协议(UCP)。此举旨在推动智能体购物全流程的标准化,实现从商品推荐、购买决策到支付结算的无缝衔接。

1 月 15 日上午,千问又前进了一大步,已经准备让智能体全面接管我们的日常生活了。

这一次,千问 App 上线了全新 AI Agent 能力「任务助理」,同时全面打通阿里生态,一次开启了 400 多项新功能,邀请测试与灰度上线已经同步开启,全都是免费可用的。

图片

      千问 C 端事业群总裁吴嘉

国内最强的 AI 模型,与最全的应用生态,现在合而为一了。

现在,你只需要对 AI 说「我要两杯奶茶」,千问就可自动找到相应的店铺,选好你的地址、选好商品、下好订单,你只需要点击最终的支付即可。

图片

如果你想买点什么东西拿不定主意,也可以和千问「任务助理」商量一下,它不仅可以讨论出个符合需求的结果,而且可以直通商店的付款链接。

图片

可以看到,千问能够接入的应用包括淘宝、闪购、飞猪、高德地图和支付宝。如果你有需要,千问还能帮你打电话。在发布会现场,千问就展示了 AI 帮人订餐,看起来餐厅老板没有认出与他交谈的是千问。

图片

除了各种有意思的功能,我们也初步体验到了 AI 智能体带来的交互革命 —— 强大的千问模型,正在把阿里独有的生态优势全部并联起来。不论生活还是工作,以后通行的方法,或许都会被 AI 重新整理一遍。

图片

一手实测  触角已经碰到了物理世界

刚过去的 2025 年被普遍视为智能体元年,智能体在人工智能领域的热度一直没有断过。从 Manus、ChatGPT Agent 到更多国产 Agent 大模型与应用,几乎每一次发布都会引起轰动。

智能体的出现,让大模型从拥有智能「大脑」进化出灵活的「手」和「脚」,对复杂任务的自动分析、拆解、执行能力与日俱增。有了智能体的参与,人们可以从繁冗的流程性工作中解放出来,大大节省了工作量与时间成本。

在全面接入一众阿里生态业务之后,千问 App 上的这个智能体新面孔能带来哪些不一样的东西呢?带着这个疑问,我们在拿到内测资格之后,马上对它来了一次摸底测验。

多品牌团购不在话下

在上文,我们已经见识到千问「任务助理」点奶茶的便利。接下来的实测中,我们给它上上难度,看能不能搞定多品牌、跨店铺的团购任务。

团购不同牌子的奶茶通常需要我们进入购物 App 并一一查找、浏览对应牌子的奶茶店,还要确认店中有没有自己想要的口味,这会浪费不少时间。在将类似的任务交给千问「任务助理」后,一切的麻烦都没有了。

我们输入指令「帮我点 3 杯霸王茶姬,5 杯瑞幸,8 杯茶百道」,它在确认你的收货地址之后会首先询问你的口味需求。

图片

在确认你有无特殊的口味需求之后,它便开始马不停地自动跑完接下来的所有流程,包括分析用户点单需求、核对点单数量、以及搜索并获取购物平台(这里是淘宝闪购)商品信息。随着一系列内外部信息被它吸收消化,紧接着会进入到制定最佳点单方案的环节。

图片

在制定点单方案时,它会根据距离的远近等因素自动为你匹配合适的商家,并初步完成满足你需求的商品筛选与推荐。

图片

一套丝滑连招下来,它为我们推荐了三种差异化的方案,或想更快收到货、或是选择评分高销量高的门店、或想要订单中包含更多样的饮品种类。这些潜在的用户意图被它精准地捕捉并考虑进来,转化为对应的优先级推荐方案。

图片

最后一步,凭自己的喜好下单付款即可。整个操作过程中,除了在有特殊口味需求时需要你的手动介入,其他时候全权交给千问「任务助理」就行了。

定制旅游计划一气呵成

前几天,「威海暴雪」的新闻登上了微博热搜,让这座滨海城市闯入了人们的视线。提起山东,大家可能更多地想到青岛。相比之下,威海的名气没有那么大。但从网上的口碑来看,威海以「小而美」著称。

带着对这座城市的好奇,我们让千问「任务助理」制定一份 1 月 16 日(这周五)北京出发的威海两日游计划。

在接收到任务之后,它便自动进入到了任务规划以及逐步的任务执行流程。首先会对我们的需求进行一个整体分析,将威海的景点、美食、住宿等因素统统考虑进来,并启动搜索子任务,即调用搜索工具查询相关的背景知识。

通过不间断地搜索、查询多类型网络来源(包括门户网站新闻、旅行社区热帖等)的威海旅游攻略,尽可能地确保信息准确可靠。

图片

紧接着,根据筛选后的优质搜索结果,它为我们规划详细的两日游行程,这里全程对高德飞猪进行了调用。

图片

最终在整合所有行程信息之后,它在高德地图上呈现出了两条交互式路线图。

图片

完整的威海两日游计划出来之后,我们发现,不仅囊括了威海热门景点,还兼顾自然风光与历史文化,并综合考虑了预算成本与游玩体验。

图片

在生成的行程计划中,你既可以一键跳转高德来导航去某处景点的路线并一键打车,也能跳转飞猪去订景区门票和酒店。

在日常购物、旅游规划之外,千问「任务助理」擅长的事情还有很多,比如政务场景,在接入支付宝政务服务之后,只需用户一句话就能快速完成政策解读、材料清单梳理等步骤,覆盖办签证、查社保等等场景,并直达办理入口,效率高得惊人。

图片

简单的几个任务测下来,我们感受颇深的一点是:在交互方式上,以前我们是与大模型「对话」,现在是给智能体「派单」。只需要给出任务,然后等待结果即可。该说不说,这才是智能体真正的定义。

千问 AI 助手  有一套「拟人化」思考架构

千问不仅是能点外卖这么简单,千问「任务助理」已经完成了一套基于通用 Agent 体系的底层重构。

首先,千问 App 采用了一套全新的通用 Agent 体系。它基于 MCP 和 A2A 协议,在其中,主 Agent 作为指挥者,它基于千问最强模型拆解和规划任务;子 Agent 作为执行者,它们是多个具有反思能力的智能体,在其领域具有完全决策执行的权限,可以根据任务情况动态纠偏。

这套范式实现了高效的分层规划,在特定任务领域上也可以保证正确的决策,大幅提升了跨领域、长链路的复杂任务执行效率和准确率。

千问深度重构了 Agent 的原生能力栈。不同于目前流行的基于视觉识别(GUI)的 Agent 路线,千问选择了更加直接的协议打通,提升了 Agent 在执行任务时的精度和效率,在隐私安全上也更有保障。为了进一步提升效率,千问还专门为 AI 进行了工具栈的重构。

比如在搜索时,Agent 能够自主选择不同的搜索方式,或是进行并发搜索;操作浏览器的 Agent 经过了专门训练,结合阿里自研浏览器内核,具备毫秒级响应和极高的交互精度;在处理可视化、写小程序或复杂表格时,智能体会检索、对齐经过验证的成熟代码范式,确保产出结果具备「工程级」稳定性。

「任务助理」多层 Agent 的系统,深度集成了阿里自家生态的各种应用、工具,大量的应用会被拆解成原子化的指令级,确保了工具调用的准确。在跨场景任务上,系统能够正确地感知实时的位置、价格等时效信息,减少了大模型常见的幻觉问题。

千问的 Agent 系统还具备可以持续演进的能力。在完成任务之后,Agent 并不是就结束工作了,而是会像人一样进行「反思」并沉淀经验,让 Agent 可以持续进化。实践的经验会被转化为结构化经验库,作为先验知识在后续任务中动态加载。

这样,AI Agent 就可以逐渐具备人类的工作直觉。

最后,通过 AI Coding 的能力,千问现在可以在执行任务时发动 AI 生成代码能力现写工具。前面说到在大量任务上,Agent 可以实现精准的识别与操作。而在比较少见的任务上,千问的 Agent 可以启动 Agentic Learning 机制,自主编写、测试并封装新的原子工具。随着人们的使用,千问「任务助理」的能力会持续增强。

前天 Anthropic 发布的 Cowork,据说是十天之内用 AI 生成代码能力写出来的。看起来现在千问把类似的能力已经给你集成在智能体上了。千问表示,目前在数百个常用工具中,有超过一半是由 AI Coding 编程自主生成的。

智能体的 AI 革命  已经开始了

今年,AI 领域正在进入产品爆发的阶段。

仅在 1 月份,业界就出现了 Anthropic 的 Cowork,OpenAI 的 ChatGPT Health 等一系列新产品。各家科技公司正在快速兑现 OpenAI 总裁 Greg Brockman 对于智能体在企业、专业领域落地的预言。

刚刚千问的新发布,更是把智能体拉近到了我们身边:它能用快速精准的方式连接最常用的 App,让 Agent 进入到你生活的每一步。在国内,能做到覆盖如此全面的生活场景的公司,还真的只有阿里,其生态囊括了购物、出行、支付、办公等方方面面。

我们能够看出,目前这些 Agent 能力还显得比较简单 —— 正如第一代 iPhone 功能的简单并没有掩盖其划时代的意义一样,千问 APP 今日的推出,也许就像是智能体的 iPhone 时刻。从鼠标点击到手指触控,再到自然语言对话的交互方式升级,从这场发布开始打响了第一枪,人与机器的关系也进入到了第三次革命的关口。

当 AI 开始帮你整理发票、规划行程、甚至下单买咖啡时,它不再是云端那个高冷的「先知」,而变成了身边能干活的「助理」,这是 AI 从「言」到「行」的分水岭。

千问,会像淘宝开启移动互联网时代那样,开启一个全新的 AI 时代吗?我们拭目以待。

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

0%
icon展开列表
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
今天
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
今天
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
今天
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
01月13日
img
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
01月13日
img
一个模型统一4D世界生成与重建,港科大One4D框架来了
01月13日
img
端到端智驾的算力困局,九章智算云这样破局
01月12日
img
真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线
01月12日
img
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
01月12日
img
清华等团队用AI驱动百万倍速药物筛选,一天内十万亿次扫描的超高速虚拟平台
01月12日
img
2026年,大模型训练的下半场属于「强化学习云」
01月12日
img
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤
01月12日
img
AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房
01月12日
img
被Jim Fan点赞!全球第一的千寻智能Spirit v1.5正式开源!
01月12日
img

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

还记得那个穿着「Lululemon」紧身衣、主打温柔陪伴的家用人形机器人 NEO 吗?

图片

上次聊到它时,大家还在吐槽其「远程操控」的隐私安全问题,调侃每个机器人的背后可能都是一个「印度小哥」。

昨天,1X 公司带着它的全新「大脑」亮相:1X World Model。这一次,NEO 似乎准备把「背后的操作员」给解放了。

简单来说,现在的 NEO 不再只是死记硬背动作,它学会了像人一样「想象」。通过观看海量的网络视频和人类第一视角的实操录像,它理解了物理世界是如何运作的:东西掉了会下落,门是可以推开的。

他们把类似 Sora 的视频生成技术装进了 NEO 的脑子里,接到指令时,它会先在脑海里生成一段「自己成功完成任务」的视频,然后倒推身体该怎么动,才能把这段想象变成现实。

不过,官方博客中也表示,有时候会出现「脑子学会了,手没学会」的情况:脑补出的视频很完美,但实际动作可能会抓空。

图片

那么这一次是「瑜伽服」下的真功夫,还是只存在于 Demo 里的「剪辑魔法」呢?不管技术落没落地,热度已经先爆表了。到截稿时间,官方推文浏览量已突破 500 万。

图片

看来,在经历了 AI 时代各式各样炫酷 Demo 的轮番轰炸之后,大家还是忍不住想看看:这一回,它是真长脑子了吗?

以下是 1X 技术团队对这颗「新大脑」的硬核拆解:

图片

家庭机器人要真正走进现实环境,必须具备常识性的行为能力以及对物理世界的深刻理解。

当前许多机器人基础模型采用的是 VLA 范式:即在一个预训练的 VLM 之上,增加一个用于预测机器人动作的输出头(例如 PI0.6、Helix、Groot N1.5)。VLM 能够从互联网规模的数据中学习到丰富的知识,但其训练目标更侧重于视觉与语义理解,而非对物理动态过程的预测。

因此,即便是对人类而言非常简单的任务,模型往往也需要数万小时、成本高昂的机器人数据才能学会完成。此外,为了进一步强化模型对物理交互中空间关系的理解,研究者通常还需要引入各种辅助训练目标(如 MolmoAct、Gemini-Robotics 1.5)。

在这篇博客中,1X 介绍了基于视频预训练的世界模型——1XWM,并将其集成进 NEO 机器人作为其控制策略。

与 VLA 模型直接从静态的图像-语言输入中预测动作轨迹不同,世界模型驱动策略是通过文本条件下的视频生成来推导机器人应采取的动作。借助互联网规模视频中蕴含的真实世界动力学规律,该世界模型能够在无需大规模机器人数据预训练、也不依赖任何相关的遥操作演示的情况下,即可泛化到全新的物体、运动方式和任务场景。

这标志着机器人智能范式的一次转变:机器人开始直接受益于视频预训练规模化带来的能力跃迁,而这一切得以实现,离不开一整套为高保真人类具身到机器人具身迁移而设计的硬件系统支持。

图片

从视频知识到世界模型

如今,诸如 Veo 和 Sora 等前沿文生视频模型已经能够生成极其逼真的视频内容。然而,这些模型在零样本生成场景下并未与机器人具身形态对齐,因而在控制任务所需的多个关键维度上往往存在不足,表现在以下几个方面:

  • 视觉/空间层面:生成的视频是否与机器人的相机内参和自我中心视角一致?是否能够准确保留操控任务所需的深度信息以及精确的空间关系?

  • 运动学层面:生成视频中的机器人动作是否在该具身形态下可实现,是否遵循其结构特性、关节极限、速度约束以及执行器能力?

  • 物理层面:生成过程是否避免了物理上不可能的结果(例如物体瞬移),从而保证其能够转化为现实世界中的成功执行?

原始视频能够提供看起来会发生什么,但并未给出如何去做。为了将视频知识转化为真正可用于控制的世界模型,1X 借助自身的端到端系统架构,采用了一种两阶段的对齐过程,思路与 DreamGen、UniPi 等已有工作一脉相承:

  • 世界模型主干:这是一个文本条件扩散模型:先在互联网规模的视频数据上进行预训练,随后在人类第一视角视频数据上进行中期训练,并最终在 NEO 专属的传感器-运动日志上进行微调。该模型能够高保真地预测场景随时间演化的过程,在视觉、空间和物理一致性方面表现出色。

  • 逆动力学模型(Inverse Dynamics Model, IDM):通过训练 IDM,将像素空间与执行器控制连接起来,使其能够预测在生成帧之间完成状态转移所需的精确动作序列。同时利用 IDM 的评估指标和拒绝采样机制,对生成结果施加运动学约束,从而确保动作在具身层面上的可行性。

在推理阶段,系统接收一个文本指令和一帧初始画面:世界模型负责生成符合意图的未来场景演化,逆动力学模型从中提取所需的动作轨迹,最终由机器人在现实世界中执行该动作序列。

图片

1XWM 的训练与推理流程

1XWM 的主干模型基于一个 140 亿参数的生成式视频模型。为了使该模型适配 NEO 的具身形态,1X 还采用了一种多阶段训练策略:

  • 第一视角中期训练:使用 900 小时的人类第一视角视频数据进行训练,使模型对第一人称的操作任务产生对齐。在这一阶段,模型能够学习到通用的操作行为模式,但仍然难以生成由 NEO 执行具体任务的视频。

  • 具身微调:随后,使用 70 小时的机器人数据进行微调,使模型进一步适配 NEO 的视觉外观与运动学特性。

以 DALL·E 3 等工作为例,已有研究表明,通过使用更具描述性的视觉文本标注进行训练,可以显著提升视觉基础模型对提示词的遵循能力。然而,许多第一视角数据集仅包含简要的任务描述。为此,1X 利用一个 VLM 生成更加详细的描述性字幕,并通过字幕上采样的方式将其用于训练。

此外,IDM 在 400 小时未经过滤的机器人数据上进行训练,其中既包括随机探索数据,也包含与任何具体任务无关的运动轨迹。这使得模型能够在任意状态下对 NEO 的运动进行准确追踪。

在测试阶段,系统接收一帧初始画面以及一条指导 NEO 执行动作的文本指令。1XWM 负责生成未来的视频序列,随后由 IDM 从生成视频中提取对应的机器人动作轨迹,并将其直接下发至机器人执行。为保证轨迹的平滑性,IDM 的输出会在多个初始噪声样本和滑动窗口维度上进行时间平均处理。

图片

NEO 后训练数据集主要包含高质量的抓取和放置数据(98.5%),这些数据经过筛选,仅包含桌面操作且手部可见的场景。通过利用基础视频模型的网络级预训练,1XWM 模型可以泛化到各种未曾见过的物体、环境和任务。

1XWM 到底能做啥

研究团队进一步评估了 1XWM 在任务泛化方面的能力,重点关注其是否能够完成 NEO 从未经历过的任务,以及生成视频与真实机器人执行之间的一致性程度。

在实验中,搭载 1XWM 的 NEO 被用于执行多种超出既有经验的任务,包括:

  • 抓取分布内与分布外的物体;

  • 操作此前从未见过、但具备复杂可供性的物体;

  • 完成需要全新动作模式的全新任务。

实验结果显示,1XWM 生成的视频与真实世界中的执行过程整体高度一致。将模型生成的视频与机器人实际完成任务后拍摄的视频进行并排对比,可以发现二者在视觉表现上非常接近。这表明,1XWM 在空间结构理解、运动学约束建模以及物理一致性等方面已经具备较强能力。

抓取:

图片

新动作:清洁

图片

接下来,1X 尝试需要双手协调和人机交互的任务。这些能力并未包含在训练数据集中。这表明此类知识来源于视频预训练和以第一人称视角进行的人机交互训练。由于 NEO 的身体结构与人类非常相似,因此从人类视频数据中学习到的功能可以直接迁移应用。

图片
图片

研究团队还通过系统性的实物实验评估了 1XWM 在分布内(ID)与分布外(OOD)任务上的表现。每类任务均重复执行 30 次。结果显示,1XWM 在多种动作原语上都保持了稳定的成功率,不过部分对精细操作要求较高的任务(例如倒液体、绘图等)仍然具有一定挑战性。

图片

能否将视频质量与任务成功率联系起来?

如果可以,就能使用视觉指标来衡量和改进视频质量,并估计实际任务成功的可能性。

有时,生成的视频是否可能成功一目了然。例如,向 1XWM 模型输入拉取纸巾指令,有时会生成 NEO 机器人拿起纸巾盒而不是拉取纸巾的视频。执行这些错误生成的视频时,成功率几乎为 0%。

1X 团队注意到像测试时计算这样的方法可以提高任务成功率。受此启发,他们尝试并行生成多个视频,并执行其中质量最好的一个。这个选择过程可以手动完成,但也可以使用 VLM 评估器进行自动化。

图片

第一视角数据与高质量字幕的重要性

基于此前假设:生成视频的质量与任务成功率之间存在相关性,研究团队对若干训练选择进行了视觉层面的消融分析,重点考察了字幕上采样以及第一视角人类数据训练这两项因素的影响。

实验共使用了三个评测数据集,每个数据集均包含 500 组起始图像–提示词对:

  • 分布内数据集:包含与机器人训练数据分布一致的复杂任务和场景,主要是杂乱环境中、物体位置较为困难的抓取与放置任务。

  • 新任务数据集:由一组全新的任务构成,例如搅拌碗、抽纸、相对尺寸判断(选择更大的物体)、双手协同操作等,数据采集于真实世界中的简单背景场景。

  • 分布外 T2I(OOD T2I)数据集:完全由抓取任务组成,其初始帧由文生图模型生成,随机采样分布外的家庭物体与背景场景。

下面是新任务数据示例:

图片

团队还要求人工标注员审查每个生成的视频,并根据物理合理性、任务完成情况以及与 NEO 的形态和能力的一致性来决定接受或拒绝该视频。

图片

字幕上采样在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与视频模型预训练时的文本条件更加匹配,也能更清晰地引导具体动作生成。

引入第一视角人类数据则显著提升了新任务和分布外场景下的生成质量,说明这类数据为操作任务提供了可迁移的通用先验,且与 NEO 的类人具身高度契合。

不过,在已有大量 NEO 数据覆盖的分布内任务上,额外加入第一视角数据可能会稀释后训练数据分布,对效果提升有限,甚至略有负面影响。

图片

参考链接:https://www.1x.tech/discover/world-model-self-learning

引言:唐杰、杨植麟、林俊旸、姚顺雨聚会:AI 发展的共识和差异;“死了么”APP 爆火,开发者:用户数翻了 50 倍,尚不准备改名;消息称微软本月将启动新一轮大裁员,规模达 1.1 万至 2.2 万人;字节实习生全面涨薪,最高涨幅达 150%;马斯克:X 平台将于七天内开源其算法;消息称约翰・特努斯成库克头号苹果接班人,曾主导 iPhone Air 项目;OpenAI 预留 500 亿美元员工股权激励池;王腾官宣创业:核心成员来自小米、华为,薪资福利基本看齐大厂;京东将推出全年龄段人群 AI 玩具……

 

行业热点

唐杰、杨植麟、林俊旸、姚顺雨聚会:AI 发展的共识和差异

 

在近日的 AGI-Next 前沿峰会上,唐杰、杨植麟、林俊旸、姚顺雨等行业标杆人物,与张钹院士共同勾勒出大模型发展的新图景,围绕技术突破、行业分化、范式变革与中国 AI 的未来展开了一场思想碰撞。

 

在技术发展的核心议题上,各位领军者达成了“突破现有瓶颈、迈向多元智能”的共识。智谱创始人唐杰直言,中国开源大模型虽成果斐然,但与美国闭源大模型的差距可能仍在拉大,行业需保持清醒认知。他提出,大模型的下一阶段应借鉴人脑认知过程,重点突破三大能力:多模态“感统”能力,实现视觉、声音、触感等多源信息的统一感知;构建全人类“第四级记忆”,解决模型记忆与持续学习不足的问题;探索反思与自我认知,挖掘大模型自主意识的可能性。2026 年,智谱将聚焦架构创新、多模态感统等方向,推动 AI 进入长任务场景并实现具身智能,同时预判今年将成为 AI for Science 的爆发年。

 

月之暗面 Kimi 创始人杨植麟则从 Agentic 时代的技术架构切入,强调提升 token efficiency 与实现 long context 的双重重要性。他认为,前者能以更少 token 达到同等效果,后者可突破传统架构局限,支撑复杂 Agent 任务,二者结合方能实现更高水平的代理智能。更具启发性的是,他提出智能具有“非同质化”属性,未来的技术升级不仅是算力的堆砌,更关乎“品味”——即对 AI 价值观与形态的深层理解,这种差异性将催生出更多新颖应用场景。面对 AGI 潜在风险,杨植麟秉持开放态度,认为 AGI 是提升人类文明上限的关键工具,应在风险可控的前提下持续迭代突破。

 

通义 Qwen 技术负责人林俊旸则将目光投向物理世界,提出打造 Multimodal Foundation Agent 的愿景。他认为行业发展“殊途同归”,全模态模型与具身推理是核心方向,Agent 将从数字世界走向物理世界。林俊旸描绘了具体的落地场景:数字特工可实现 GUI 操作与 API 调用,物理特工则能完成斟茶倒水等实体交互动作,这种从虚拟到现实的延伸,为 AI 应用开辟了广阔空间。

 

作为压轴嘉宾,张钹院士从旁观者视角给出了深刻洞见。他指出,大模型当前擅长跨领域泛化,但落地应用需实现跨任务泛化,重点解决分布外、长尾场景的泛化难题,具体应推进多模态、具身交互、结构化知识对齐等六大方向。在人机关系上,他大胆质疑“机器必须与人类对齐”的传统认知,认为人类存在固有缺陷,无需让 AI 完全复刻;而 AI 治理的核心,不应是约束机器,而是规范研究者与使用者的行为。值得关注的是,张院士一改以往态度,鼓励最优秀的学生投身创业,认为人工智能时代的企业家应承担起将知识、伦理与应用转化为通用工具的使命。

 

圆桌对话环节,嘉宾们围绕行业分化、范式变革、Agent 战略与中国 AI 的胜算四大议题展开深度探讨。腾讯首席科学家姚顺雨从跨中美视角指出,To C 与 To B 场景的模型需求已分道扬镳:To C 用户对强智能需求有限,To B 领域则呈现“智能即生产力”的鲜明特征,模型强弱分化将愈发明显。在范式变革方面,姚顺雨提出自主学习已实际发生,只是尚未形成颠覆性感知;唐杰则预判 2026 年将出现新范式,单纯依靠扩算力、扩数据的 Scaling 模式已难以为继,创新是唯一出路。

 

关于中国 AI 的全球竞争力,嘉宾们既正视差距也保持信心。姚顺雨认为中国团队在快速复现与局部优化上具备优势,但缺乏敢于探索未知的“冒险家”;林俊旸坦言美国在算力投入上领先 1-2 个数量级,中国团队领先概率约为 20%,但“穷则思变”可能催生创新机会;唐杰则强调,凭借敢冒险的年轻一代、良好的发展环境与持续深耕的定力,中国 AI 有望在长期竞争中实现突破。

 

“死了么”APP 爆火,开发者:用户数翻了 50 倍,尚不准备改名

 

2026 年 1 月,郑州月境技术 3 人 95 后团队开发的 8 元付费 APP “死了么” 爆火,苹果付费软件排行榜登顶,用户数较此前翻 50 倍仍在上涨。据悉,该 APP 专为独居人群设计,2 日未签到即自动向紧急联系人发邮件,因名字有传播力、需求旺盛等爆火,团队表示暂不改名,计划上线短信提醒、留言等功能。

 

该软件不需注册登录,首次使用只需填写本人姓名与紧急联系人邮箱即可。每天打开应用轻轻一点完成签到,后台自动监测状态。系统有一个异常未签到自动通知的功能,如果用户连续 2 天没有在应用内签到,系统将于次日自动发送邮件告诉对方。

 

其背后公司名为月境(郑州)技术服务有限公司,2025 年 3 月份才成立,注册资本 10 万元。创始人之一小郭对媒体介绍,团队有 3 人,一位是朋友,一位是网友,都是 95 后。这款 APP 耗时 1 个月完成,开发成本约 1500 元。

 

据报道,“死了么”在 2025 年中旬上线,不过期间团队未花过多精力打理,在一个月前才做了一次更新。上线后很长一段时间里用户量很少,团队也不擅长营销,直到最近突然爆火,用户数达到之前的 50 倍,目前热度还在上涨。不过由于用户规模数能直接推导出团队收益,小郭表示,目前不便透露具体用户规模。

 

消息称微软本月将启动新一轮大裁员,规模达 1.1 万至 2.2 万人

 

1 月 7 日消息,据报道,微软公司计划于 2026 年 1 月启动新一轮裁员。预计全球范围内裁员规模将达到 1.1 万至 2.2 万人,约占其全球约 22 万名员工总数的 5% 至 10%。此次裁员预计将在 1 月第三周实施。有员工透露,微软 Azure 云团队、Xbox 游戏部门以及全球销售部门将是裁员的重点领域。截至目前,微软尚未证实该计划。微软在 2025 年尽管全年营收与利润保持稳健态势,该公司仍通过多轮裁员削减了超过 1.5 万个岗位。

 

与此同时,微软正加大对人工智能系统的投入力度。仅在 2026 财年第一季度,其资本支出就高达 349 亿美元(现汇率约合 2441.36 亿元人民币)。该公司预计全年总支出将突破 800 亿美元(现汇率约合 5596.24 亿元人民币),超过 2025 财年水平。这笔资金的大部分将用于数据中心、芯片及人工智能工具的建设与研发。分析师认为,受此战略调整影响,微软正将资金从人力成本转向长期技术资产投资。因此,中层管理人员及传统产品团队将面临更高的裁员风险。

 

字节实习生全面涨薪,最高涨幅达 150%

 

1 月 5 日,有消息称字节跳动实习生全面涨薪,覆盖技术、产品、运营等多个岗位,薪资标准自 2026 年 1 月 1 日起正式生效。其中,技术类实习生日薪调整至 500 元,较此前上涨 25%。产品类岗位从每日 200 元提升至 500 元,较此前上涨 150%。此外,运营、设计、市场、职能、销售等其他岗位也均有不同程度涨薪,调整后日薪区间涵盖 100 余元至 400 余元。

 

需要注意的是,此次公布的涨薪标准主要适用于北上广深杭等一线城市。同时,具体薪资仍会根据岗位类型、所在业务线等因素有所区别,并非完全统一。通过查询招聘软件发现,目前北京地区的产品实习生日薪已调整为 500 元,运营、营销类实习生日薪则为 350 元/天。

 

据了解,字节跳动 2025 年 12 月发布面向全球员工的内部邮件,宣布继续加大人才投入,提高薪酬竞争力、提升期权激励力度。具体包括以下措施:增加奖金(含绩效期权)投入,2025 全年绩效评估周期相比上个周期提升 35%;大幅增加调薪投入,较上个周期提升 1.5 倍;提高所有职级薪酬总包的下限(起薪)和上限(天花板)。该公司表示,此举系为确保员工薪酬竞争力和激励回报在全球各个市场都“领先于头部水平”。

 

马斯克:X 平台将于七天内开源其算法

 

社交媒体平台 X 创始人埃隆・马斯克于周六表示,该平台将在七天内面向公众开源其新版算法,这一算法包含用于决定向用户推荐哪些帖文及广告的相关代码。“这项举措将每四周推行一次,同时会附上详尽的开发者说明文档,助力大家了解算法的具体更新内容。”身为 X 平台所有者的马斯克在该平台发布的一则帖子中如此表示。

 

消息称约翰・特努斯成库克头号苹果接班人,曾主导 iPhone Air 项目

 

1 月 9 日消息,报道称伴随着现任首席执行官蒂姆・库克年满 65 岁,且其本人有意减轻工作负荷,苹果公司已加速接班人计划,而约翰・特努斯再次被认为是接班热门人选。媒体援引博文介绍,现年 65 岁的库克向高层坦言感到疲惫,希望减轻工作负担。若库克决定卸任 CEO 一职,极有可能转任苹果董事会主席。在众多候选人中,现任硬件工程主管约翰・特努斯尽管行事低调,但已跃升为头号热门人选。特努斯现年 50 岁,这一年龄恰好与库克 2011 年接替乔布斯时的年龄相同。

 

知情人士透露,特努斯之所以脱颖而出,源于其在产品定义与商业利益间“穿针引线”的精准把控力。据内部人士回忆,2018 年前后,苹果为了提升摄影与增强现实(AR)体验,曾考虑在 iPhone 上引入一种微型激光(LiDAR)组件。然而,该组件高达 40 美元的单项成本将严重压缩利润。特努斯当时果断建议:仅在价格更高的 Pro 机型上搭载该组件。他认为,购买 Pro 系列的忠实用户更愿为新技术买单,而普通用户对此并不敏感。这一决策不仅保住了利润,也确立了产品分级策略。

 

针对外界关于其缺乏创新能力的质疑,Ternus 的支持者指出,他实际上深度参与了近年来多个关键产品的研发。值得注意的是,备受瞩目的 iPhone Air 以及即将面世的折叠屏 iPhone 均由他牵头主导。这些项目显示,Ternus 不仅具备卓越的执行力,在推动产品形态创新方面同样拥有实际战绩。此外在管理风格方面,特努斯被认为与库克高度相似。他于 2001 年加入苹果,以注重细节和深谙庞大的供应链网络著称。

 

OpenAI 预留 500 亿美元员工股权激励池

 

1 月 8 日消息,据外媒报道,人工智能公司 OpenAI 去年秋季设立了一项规模达约 500 亿美元的员工股票激励池,相当于公司当时估值的约 10% 股份,该估值基于 2025 年 10 月约 5000 亿美元 的公司估值水平。报道指出,此前 OpenAI 已向员工授予约 800 亿美元的已归属股权,本次新增的股票激励池与既有部分合计约占公司总股份的 26%。

 

在过去一年中,OpenAI 的估值经历了快速增长。2025 年年中公司通过一笔员工股份二级市场交易达到约 5000 亿美元估值,高于前一次由 SoftBank 等领投的 3000 亿美元融资轮。二级股权交易不仅为员工提供了变现渠道,同时也被视为衡量市场对 OpenAI 增长前景信心的一个指标。

 

这一大规模股权激励池反映了 OpenAI 在全球 AI 竞争中对人才吸引与保留的高度重视。在人工智能研发与产品商业化日益加剧的背景下,顶尖 AI 研究人员和工程师成为市场追逐的稀缺资源,竞争对手包括 Meta、Google 等科技巨头均提供了丰厚的股权激励条件。在行业快速发展与人才争夺日益激烈的背景下,OpenAI 的股权策略旨在通过高比例激励计划锁定核心技术人才,同时支持公司未来产品和业务长期增长。

 

王腾官宣创业:核心成员来自小米、华为,薪资福利基本看齐大厂

 

1 月 8 日,王腾在社交平台公布最近情况。王腾称,从小米离开后开始筹备创业,最近新公司已经成立,公司取名为“今日宜休”,目标是通过研发睡眠健康相关的产品,让大家能拥有更好的精力状态。王腾表示,目前已经组了一个初创团队,核心成员主要来自小米、华为等头部科技大厂。

 

王腾还放出招聘广告,重点招聘软硬件产品经理、 健康/AI 算法工程师、脑科学睡眠健康专家等岗位。王腾还解释为何选择睡眠健康、精力管理方向:1. 首先睡眠、精力已经成为每个人都关心的健康问题。2. 社会对睡眠的价值理解有待提升。3. 新时代下 AI 大模型发展迅速,让很多产品的体验能大幅提升。公开信息显示,北京今日宜休科技有限责任公司成立于 2026 年 1 月 6 日,由王腾持股 55%并担任法定代表人,注册资本是 100 万人民币,注册地址是北京市海淀区。

 

此前报道,去年 9 月 8 日,小米发布内容通报,原小米中国区市场部总经理、REDMI 品牌总经理王腾因泄密被小米公司辞退。11 月份,王腾发文称告别手机行业。他表示前段时间因为自己的问题离开小米,最近也有一些公司发来邀约,但综合竞业限制和个人兴趣的考虑,想跟手机行业说声再见了,愿还在这个行业的朋友们继续加油,期待更精彩的产品出现。王腾还透露 11 月开始准备尝试些新的赛道,大的方向是科技+健康领域,具体还在筹备中,“迎接新的挑战,正是闯的年纪。”

 

京东将推出全年龄段人群 AI 玩具

 

1 月 8 日消息,据媒体报道,京东成立“变色龙业务部”,全面承接 JoyAI App、JoyInside、数字人等核心 AI 产品的打造与商业化。报道称,全新的第二批 AI 玩具已在筹备中,此次新品将推出面向全年龄段人群的 AI 玩具,将于 1 月中旬全面上线。

 

值得一提的是,在 2025 世界人工智能大会(WAIC)期间,京东正式宣布旗下大模型品牌升级为 JoyAI,以及京东在大模型方向的技术进展和 JoyAI 应用全景图,同时也发布了全新的附身智能品牌 JoyInside。据当时介绍,JoyAI 大模型拥有从 3B 到 750B 全尺寸模型家族,且通过动态分层蒸馏、跨领域数据治理等创新技术,大模型推理效率平均提升了 30%,训练成本降低 70%。

 

此外,谈到 JoyInside,截至 2025 年 7 月,已有众擎、云深处、商汤元萝卜、火火兔、Fuzozo 等数十家企业已正式接入,覆盖人形机器人、四足机器人、儿童玩具、AI 潮玩等多类载体。另据京东官方披露,截止 2025 年 12 月,已有超 4.5 万家品牌接入数字人服务,数字人直播成本约为真人直播的 1/10,平均转化率提升约 30%。在 2025 年“双 11”期间,采用数字人直播的商家数量同比增长近 6 倍,全年累计带动商品交易总额(GMV)达数百亿元。

 

蚂蚁美团联手投了一家 AI 硬件创企,前美团硬件负责人带队

 

1 月 5 日,北京 AI 硬件创企 Looki 正式完成超 2000 万美元(约合人民币 1.4 亿元)A 轮融资,本轮由蚂蚁集团领投,美团龙珠、华登国际、中关村资本跟投,老股东 BAI 资本连续两轮超额追投,阿尔法公社、同歌创投持续加码。在完成本轮融资后,Looki 计划加快人才建设、模型迭代、产品研发及供应链整合,围绕 AI 原生硬件推进下一代交互设备的探索。

 

Looki 成立于 2024 年 5 月,截至目前已连续完成 4 轮融资。该公司由两位卡内基梅隆大学(CMU)的校友联合创办,CEO 孙洋曾任美团智能硬件负责人、Momenta 高级研发总监,是 Google Assistant 早期创始成员之一。CTO 刘博聪曾任美团自动驾驶算法负责人、Pony.ai 创始成员。团队成员来自清华大学、北京大学、多伦多大学、伊利诺伊大学、伦敦政经等知名院校,曾就职于 Google、Amazon、Qualcomm、字节跳动等公司,在 AI 算法、AI 产品、硬件工程等方面具备丰富经验。

 

在 Looki 发布的一段产品介绍视频中,CEO 孙洋称,Luki L1 自去年 8 月上线以来,已被不少用户当作“记录生活节奏”的常用设备使用。Luki 还具备“主动 AI”能力,如根据饮食、坐姿时间、行为节奏提出健康建议,例如“你今天已经喝了两杯咖啡,要不要换成水?”或者“你已经在桌前坐了一小时,要不要走一走?”等。

 

智谱上市,唐杰内部信要求全面回归基础模型研究

 

1 月 8 日智谱上市当天,清华大学计算机系教授、智谱创立发起人兼首席科学家唐杰发布内部信,宣布很快将推出新一代模型 GLM-5。内部信还介绍了 2026 年智谱聚焦的三个技术方向,包括全新的模型架构设计,更通用的 RL(强化学习)范式以及对模型持续学习与自主进化的探索。它们均围绕基础模型能力提升展开。

 

上海又一 GPU“四小龙”上市!

 

继沐曦股份、壁仞科技之后,上海又一家 AI 芯片企业成功上市。1 月 8 日,上海芯片企业天数智芯登陆港交所,在 1 个月的时间内,上海已先后有“港股国产 GPU 第一股”的壁仞科技和科创板上市首日涨幅近 7 倍的沐曦股份,加上已完成 IPO 辅导冲刺科创板的燧原科技,上海 GPU“四小龙”齐聚资本市场。

 

媒体从上海市经信委获悉,2025 年 1-11 月,上海市集成电路产业营收规模 3912 亿元,同比增长 23.72%,2025 年全年产业规模预计超 4600 亿元,同比增长 24%,五年间产业规模翻了一番多,超额完成“十四五”发展目标。集聚超 1200 家集成电路企业,汇聚全国约 40%的产业人才、近 50%的产业创新资源。

 

天数智芯战略与公共关系部副总裁余雪松表示,作为国内首家开展通用 GPU 自主研发的企业,公司已完成从核心技术攻关到商业化落地的全链路贯通。“我们的研发团队有 480 人,平均拥有 20 年以上行业经验,超三分之一研发人员具备 10 年以上芯片设计与软件开发经验。包含架构、通用 GPU IP 及芯片设计、基础软件、软硬件协同等各领域的专家。”余雪松说。上海市经信委相关工作人员表示,除了上海 GPU 芯片“四小龙”(壁仞、沐曦、天数、燧原),光计算、近存计算等创新路线 AI 芯片企业也相继涌现,支撑国内大模型等新质生产力发展。

 

马斯克回应英伟达自动驾驶 AI 模型:特斯拉正在做,达到 99%很容易

 

1 月 6 日消息,在 2026 消费电子展(CES)上,英伟达宣布推出 Alpamayo 系列开放式 AI 模型、模拟工具和数据集,旨在解决自动驾驶安全挑战。对此,马斯克回应称:“好吧,这正是特斯拉在做的。他们会发现,达到 99%很容易,但要解决分布的长尾问题却非常困难。”

 

据悉,Alpamayo 平台的核心是 Alpamayo 1 模型,这是一款拥有 100 亿参数、基于思维链技术的视觉-语言-行动(VLA)模型。该模型可让自动驾驶汽车具备类人思维能力,即便在未经任何训练和标注的情况下,也能解决复杂的场景问题,例如在交通信号灯失灵的路口规划通行路线。

 

英伟达还强调,Alpamayo 模型并非直接在车内运行,而是作为大规模教师模型,供开发者微调并提取到其完整自动驾驶技术栈的骨干中。黄仁勋在声明中表示:“首款搭载英伟达技术的汽车将于第一季度在美国上路。”

 

硅谷科技初创公司兴起“脱鞋办公”潮

 

1 月 5 日消息,曾经靠海洋球滑梯、免费尼古丁袋等五花八门的福利留住员工的硅谷热门科技初创公司,如今又出新招——要求员工进门脱鞋。根据观察,在年轻人占主导的办公场所,“无鞋办公”政策正悄然兴起。雇主们认为,员工穿着毛绒袜、拖鞋踩在地毯上,能打造出更轻松无压的工作氛围。然而矛盾的是,这些公司中不少仍推行“996”工作制,要求员工从早 9 点工作到晚 9 点,每周连轴转 6 天。

 

斯坦福大学经济学家、职场文化专家尼克·布鲁姆表示,无鞋办公政策的流行,在一定程度上是“睡衣经济”的延伸——随着远程办公者被要求重返办公室,他们也把居家办公的习惯带到了办公室。但这一趋势也与硅谷高压的工作文化一脉相承。布鲁姆说:“如果你每天要在公司待 12 个小时,那不如直接穿拖鞋上班,毕竟在家也没机会穿。”

 

中国商务部回应 Meta 收购 Manus

 

1 月 8 日,就 Meta 收购人工智能平台 Manus 一事,中国商务部新闻发言人何亚东表示,中国政府一贯支持企业依法依规开展互利共赢的跨国经营与国际技术合作。何亚东在当日举行的例行新闻发布会上回应称,需要说明的是,企业从事对外投资、技术出口、数据出境、跨境并购等活动,须符合中国法律法规,履行法定程序。商务部将会同相关部门对此项收购与出口管制、技术进出口、对外投资等相关法律法规的一致性开展评估调查。

 

大模型一周大事

 

重磅发布

 

黄仁勋官宣英伟达已投产 Vera Rubin:训练 AI 速度是 Blackwell 架构 3.5 倍

 

在北京时间 1 月 6 日凌晨举办的 CES 2026 主题演讲中,英伟达首席执行官黄仁勋发表主题演讲,介绍了新一代“Rubin”计算架构,并将其定义为当前 AI 硬件领域的“最先进技术”,该架构已进入全面量产阶段。Rubin 架构以天文学家薇拉·鲁宾的名字命名,由六款协同工作的独立芯片组成。该系统的核心是 Rubin GPU,同时配备了专为“智能体推理”(Agentic Reasoning)设计的全新 Vera CPU。

 

在性能表现方面,Rubin 架构相较于前代产品实现了显著跨越。根据英伟达官方测试数据,Rubin 在 AI 模型训练任务上的运行速度是 Blackwell 架构的 3.5 倍;在推理任务中,其速度更是达到了前代的 5 倍,峰值运算能力高达 50 Petaflops。此外,新平台的能效表现同样优异,其每瓦推理算力提升了 8 倍。这一性能飞跃将为日益复杂的 AI 模型提供强大的算力支撑。

 

同时,黄仁勋也介绍并推出了全新的 Alpamayo 1,是其视觉-语言-动作模型(VLA),结合因果链推理与轨迹规划,主要增强复杂驾驶场景中的决策能力。

 

智元发布开源仿真平台 Genie Sim 3.0

 

智元机器人在 CES 国际消费电子展首日正式发布首个大语言模型驱动的开源仿真平台——Genie Sim 3.0。基于 NVIDIA Isaac Sim,Genie Sim 3.0 融合三维重建与视觉生成,打造数字孪生级的高保真环境;首创大语言模型驱动的场景泛化技术,让万级场景的生成只需几分钟;同步开源包含真实机器人作业场景的上万小时仿真数据集;并构建了覆盖 10 万+场景的多维度智能评估体系,为模型能力绘制全景画像。

 

OpenAI 推出 ChatGPT Health 模式,为“健康 / 医疗”类型对话设立专属空间

 

1 月 8 日消息,OpenAI 正式宣布推出 ChatGPT Health,该模式集成于 ChatGPT 中,号称是一个“专门用于与 ChatGPT 进行健康相关对话的独立空间”,预计将在未来几周内陆续向用户开放。OpenAI 称,目前平台每周有超过 2.3 亿人询问有关健康的问题,因此该公司推出了 ChatGPT Health 模式,旨在让用户更系统、更安全地讨论自身的健康问题。

 

据介绍,在 ChatGPT Health 模式下,系统会将用户的对话与其他普通聊天记录进行隔离,避免用户的健康背景在日常对话中被无意提及。如果用户在普通聊天中开始讨论健康问题,系统也会引导其切换到 Health 模式进行交流。同时,在 Health 模式下,AI 仍然可以参考用户在其他场景中的部分信息。ChatGPT Health 还将支持与个人信息及健康类应用的数据整合,包括 Apple Health(苹果健康)、Function 和 MyFitnessPal 等。OpenAI 强调,Health 模式中的对话内容不会被用于训练模型。

 

不过,ChatGPT 这样的“大模型”本质上是通过预测最可能的回答来生成内容,而不是基于对“真实与否”的判断,因此并不保证生成的医疗见解一定正确,OpenAI 也在其服务条款中明确指出,ChatGPT 仅供参考,不能够用于任何健康状况诊断 / 治疗。

 

雷鸟 CES 2026 推出全球首款 eSIM 功能 AR 智能眼镜 X3 Pro Project eSIM

 

1 月 8 日消息,雷鸟在 CES 2026 中正式推出了全球首款支持 eSIM 功能的 AR 智能眼镜 X3 Pro Project eSIM,但并未公布价格和上市时间。据介绍,该产品采用双目全彩光机,可获得“等效 43 英寸的 3D 空间视觉观感”,同时产品搭载高通骁龙 AR 1 计算平台,内置 RayNeo AR 应用虚拟机,支持微信、抖音、B 站等多款应用。此外,该产品搭载 eSIM 通信模块,使得 AR 眼镜首次真正具备脱离手机的能力,产品无需通过手机或 Wi-Fi,即可独立完成包括通话、实时 AI 对话、实时翻译、在线流媒体播放等功能。

 

摩尔线程正式发布开源大模型分布式训练仿真工具 SimuMax 的 1.1 版本

 

1 月 8 日,据摩尔线程消息,近日,摩尔线程正式发布开源大模型分布式训练仿真工具 SimuMax 的 1.1 版本。该版本在完整继承 v1.0 高精度仿真能力的基础上,实现了从单一工具到一体化全栈工作流平台的重要升级,为大模型训练的仿真与调优提供系统化支持。本次更新聚焦三大核心创新:用户友好的可视化配置界面、智能并行策略搜索,以及融合计算与通信效率建模的 System-Config 生成流水线。新版本同时提升了对主流训练框架 Megatron-LM 的兼容性,并增强了对混合并行训练中复杂通信行为的建模精度,使仿真环境更贴近真实生产场景。

 

企业应用

 

  • 1 月 7 日,微创机器人依托神经元 MicroGenius 多模态自主手术大模型,成功完成了全球首例“大模型自主手术”动物实验。这一突破性成果不仅填补了全球大模型自主手术在体动物实验的技术空白,更推动全球 AI 产业在医疗领域的深度升级与跨界融合。

  • 1 月 6 日,波士顿动力与谷歌 DeepMind 宣布建立新的人工智能合作伙伴关系,目标将 Gemini Robotics 人工智能基础模型与波士顿动力的新型 Atlas 人形机器人集成。

  • 1 月 6 日,高通与谷歌宣布深化长达十年的汽车领域合作,双方将整合骁龙数字底盘解决方案与谷歌汽车软件及云服务能力,加速软件定义汽车落地,推动 AI 赋能的智能出行体验规模化普及。

  • 1 月 5 日,腾讯 AI 工作台 ima.copilot 迎来更新:正式上线“生成 PPT”功能。用户只需进入“任务模式”,即可调用个人知识库中的素材,一键生成幻灯片。

  • 1 月 5 日,智元机器人已与 MiniMax 达成合作,MiniMax 将为智元机器人提供文本到语音全流程 AI 技术支持。针对智元机器人的产品定位与功能特性,MiniMax 为其量身打造专属人设体系,优化用户与机器人的语音交互体验。同时,基于人设体系构建定制化提示词策略,为用户生成专属音色,实现千人千面的个性化音色合成,满足多样化语音交互需求。此外,MiniMax 还基于自研音乐生成模型,助力智元机器人拓展娱乐场景玩法。

作者 | 华卫

 

本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

 

我们采访了真机智能董事长兼首席科学家刘智勇,听他讲述了视觉语言导航(VLN)技术的当前难题、具身智能领域在 2025 年的各类进展以及今年在能力边界上的两个突破方向和技术决胜点。他表示,一旦世界模型的因果推理能力取得突破,无论是机器人的安全性还是行为和推理的安全性问题,都能得到很好的解决。

 

“2026 年本体厂商肯定会收缩,估计中国最终只会剩下 5 到 8 家本体机器人公司。”他指出,核心是在某个单一场景实现盈利,不是毛利而是不依赖大量售后成本的净利。但单纯的整机销售并非很好的商业模式,如果只卖硬件,后续的售后压力会非常大,用户一次性付太多钱也承受不了。

 

下面是详细对话内容,以飨读者。

VLN 和世界模型上“大分”

 

Q:2025 年具身智能领域有哪些突破性进展让您印象深刻,包括技术、产业化和生态建设上?这些进展是否已经为具身智能从实验室走向特定场景的“初步普及”奠定了基础?

 

刘智勇:我印象比较深刻的是 VLN 方向的相关进展。过去我们主要是以 SLAM 为核心的技术路线,但从去年到现在,涌现出了大量基于视觉语言作为多模态输入的导航模型。这种视觉语言模型能解决零样本泛化的问题,我们不再需要预先构建地图了。把一个机器人放到任何全新的固定场景里,它都能实现零样本泛化,自主完成导航任务。另外,像 UniNavid、ETPNav、FSR - VLN 这些代表性工作,也让机器人门到门配送的实现出现了曙光和可能性。这就是从几何测量的导航范式,转变到学习增强的导航范式。当前的瓶颈在于未达极高的导航成功率。

 

从场景普及的角度来说,核心是我们不再需要预先建图了。这就意味着,把机器人放在任何新的位置上,它都能立刻开始工作,直接解锁了很多之前无法覆盖的场景。最关键的一点是,零样本能力等同于部署成本的大幅降低。部署成本降下来之后,整个成本结构就能适配场景化的盈利模式,这正是为场景普及奠定的核心基础。技术成熟后,前期的准备和部署工作会大幅减少,这也为未来的产业发展打下了很好的基础。

 

Q:具身智能的核心技术栈正在如何演变?2025 年这一年有哪些值得关注的新范式或共识?

 

刘智勇:从算法角度来看,核心变化是从之前感知、决策、执行分离的多模块化范式,逐渐转向 VLN 或 VLA 的端到端统一范式。从数据角度来说,发展方向是从单纯的真实数据采集,逐步转向合成数据、离线轨迹挖掘以及世界模型这些领域。训练范式也发生了改变,从强化学习调参慢慢转向世界模型驱动。现在世界模型算是行业内解决数据问题的一个共识,原因很简单,不管是在长程层面模拟预测未来状态、在底层层面预测动态物体轨迹,还是弥补数据的 corner case,世界模型都起到了不可或缺的作用。

 

Q:世界模型被寄予厚望,被认为是实现高级推理和规划的关键。现阶段来看,它对机器人实际能力的提升体现在何处?之后还有哪些方面的潜力?

 

刘智勇:现阶段来看,主要体现在三个方面。第一,机器人执行长程任务时容易陷入短视困境,而世界模型可以模拟未来的长程状态,对全局规划能力有非常重要的提升;第二,动态环境下静态地图容易失效,无法准确指引路径轨迹,世界模型能够预测动态物体的轨迹,让机器人的本地行动更安全;第三,世界模型能较好地生成相关数据,减少数据泛化鸿沟。我们认为,世界模型是 VLN 突破长程规划和动态适应瓶颈的充分非必要条件。但现在世界模型的主要问题是黑盒,而非白盒可微。

 

Q:大模型的快速发展,为具身智能的“智能”部分带来了哪些质变?

 

刘智勇:从我们的实践来看,最核心的变化是导航和路径规划的技术范式发生了转变。过去我们采用的是 SLAM 方案,现在则转向了 VLN 范式。过去的 SLAM 方案存在几个明显的局限,一是方案本身不具备语义理解能力,二是依赖静态地图,必须预先建图才能使用,三是需要对特定的传感器做专门标定。而 VLN 范式完全不同,它可以结合语言和视觉实现语义层面的理解,同时能应对非静态环境,实现动态适配。更关键的是,这个方案不再依赖高规格的激光雷达,也不需要预先部署地图,成本和效率都实现了大幅优化。大模型的快速发展,推动技术范式从几何测量的 SLAM 转向学习增强的 VLN,这正是带来质变的核心原因。行动、观测和语言本来属于三个空间,现在要把三个空间统一起来,这也是目前的核心难点。

大规模落地现在卡在哪儿?

Q:几乎所有专家都指出,高质量、大规模的物理交互数据稀缺是当前最大瓶颈。面对真实数据采集成本高昂的困境,仿真合成数据、人类视频数据等替代方案能走多远?“数据工厂”是可行的解决方案吗?

 

刘智勇:我们面临的主要数据瓶颈有两个,一是数据的场景覆盖不足,比如现在常用的数据集大多基于 Mate Port 3D、Habitat、AI2THOR 等 构建,只包含 固定的训练环境,场景覆盖肯定不够;二是做 VLN 的数据采集成本很高,有时需要 3D 数据采集,标注成本也比 2D 图像高出一个量级。对 VLN 来说,现在数据是完全不足的,既存在场景覆盖问题,又有成本高昂的问题。

 

目前,我们在采用多种数据解决方案。第一是采集真实数据,采集 RGBD 视频流,以及数字手套等,再结合人工标注指令,像 Atomic 和一些基准数据集的主要来源就是真机数据。第二是比较常见的用仿真器生成,比如借助模拟器搭载 3D 场景库,批量生成视觉语言轨迹三元组。第三是采用 新范式,不用额外改动 3D 环境,通过改写人类标注数据的方式生成新样本,这是一种静态片段生成的新范式。另外,未来还有一种发展方向是离线数据、离线轨迹挖掘的方式,有点类似实行微克隆。

 

Q:当前的硬件如灵巧手、关节驱动、传感器等,在哪些方面最能满足机器人的技术需求?又在哪些方面构成了发展的主要制约?

 

刘智勇:要讲满足技术需求的地方,我们可以和轮式机器人做个比较。之前的轮式机器人只能移动到楼下,没办法开单元门、摁电梯,只能在楼下送货或者在室内移动。而现在的灵巧手、一体化关节,再加上一些触觉传感器,能让机器人具备开门、按电梯的能力,这是轮式机器人到人形机器人的一个巨大转变。

 

不过目前硬件也存在几方面的制约。第一,我们还需要高分辨率的柔性触觉皮肤。因为机器人需要用机械灵巧手摁电梯,如果触觉不够灵敏,盲按的波动率大,成功率就会比较低。第二,门把手的种类太多了,如果机器人没有触觉反馈,根本没办法应对成千上万种门的情况,也很难实现场景泛化。再就是机器人要进行成千上万次的反复操作,电机、执行器、丝杠这些部件的脆弱性,可能在我们的应用场景中被放大 100 倍。所以从硬件角度来讲,目前主要的制约就是开门要做得好、触觉要做得好这两点。

 

Q:目前为止,制约具身智能大规模落地应用难题还有哪些?

 

刘智勇:对于我们的 VLN 技术来说,主要有两方面的难题。第一是感知决策的延迟问题,这甚至可能是致命的。简单来说,长程规划和行动频率的匹配很关键,如果感知和决策环节出现延迟,机器人在开放环境中运作就会遇到很多麻烦,这就要求必须在端侧做好部署。第二是硬件性能短板,既要让硬件能灵敏地感知外部世界,又要保证它能反复进行操作,而目前这类硬件的耐疲劳性、反脆弱性能还不够强。对于世界模型来说,核心瓶颈是隐式神经表征,而非显式 3D 高斯,可能在开门和按键上缺少精准几何信息。

具身智能该告别 “一锤子买卖”?

Q:面对这样的机遇与挑战,您们在接下来一年的战略重点和核心发力方向是什么?

 

刘智勇:真机智能其实分成了北京真机和苏州真机两个公司。北京真机关注的还是比较传统的 SLAM 加轮式机器人的技术栈和方案,苏州真机则聚焦于 VLN 加人形机器人的技术栈及方案。

 

苏州真机接下来有两个关注重点,第一是通过视觉语言导航的方式,实现无需额外提前部署的门到门配送。过去部署成本太高了,大概占了整个机器人售价成本的 38% 左右。我们希望能实现零样本泛化,换句话说,就是让机器人能够直接理解环境,直接完成导航任务。第二是全身运动控制,要解决的核心问题是开门。之前的控制是基于机器人静态的假设来实现的,哪怕是协作机器人也是保持自身不动去拉开门,这种方式需要的扭矩非常大。我们希望通过全身控制打破静态平衡的限制,依靠动态平衡的方法更泛化地解决开门的问题。

 

把这两个点结合起来,我们既能实现无需预先建图的门到门配送任务,同时又能解决开门和按电梯的任务。这两个方案结合之后,就可以实现最后五公里的门到门配送,既能开门、操作电梯,又能以无建图、无 GPS 的方式完成导航。室内本身没有 GPS 信号,但又需要实现导航,这时候视觉和语言理解的作用就非常关键了。

 

Q:除了直接销售机器人整机,具身智能未来的商业模式可能有哪些创新?

 

刘智勇:整机销售和租赁这两种方式都会存在。但我个人觉得,单纯的整机销售并不是很好的商业模式,更好的方式是 “整机销售 + 每年服务费” 的组合模式。如果只卖硬件,一次性卖完其实很亏,后续的售后压力会非常大。“整机销售 + 每年服务费” 就比较合理,既能保证长期的最大收益,又能解决售后问题,还能让设备商一次性回本。通过这种组合模式,能把原本不赚钱的 “卖铁生意”,变成能持续盈利的长期现金流生意。另一方面,用户一次性付太多钱确实承受不了。

 

除此之外,未来还可能出现按单收费的商业模式。比如人形配送机器人测算下来每单成本能控制在两到三元人民币,和达达这类上游公司合作,机器人完成一单就赚一笔费用。

本体厂商大收缩,要拼什么?

Q:到 2026 年,我们有望看到具身智能在能力边界上实现怎样的突破?整个具身智能领域的技术决胜点可能会是什么方面?

 

刘智勇:2026 年可能会有两个关键突破方向。第一是机器人在非结构化场景中实现稳定作业。要做到这一点,需要机器人具备一定的社交行为表现和自主导航能力。解决了之后,一些之前没想到的非结构化环境下的任务机器人也可能完成了。目前行业内大多还聚焦在结构化环境,所以这会是一个重要突破。第二是突破莫拉维克悖论(Moravec's Paradox)。以往大家觉得,机器能完成人类觉得难的事,但难以完成人类觉得简单的事,而 2026 年可能机器人也能胜任这类任务,会在人类觉得简单的事情上取得突破。

 

至于技术决胜点,我认为有几个关键因素,其中最重要的是世界模型的因果推理能力。一旦这项能力取得突破,无论是机器人的安全性还是行为和推理的安全性问题,都能得到很好的解决。

 

Q:2026 年,全球具身智能公司的竞争情况将如何变化?中国公司与国际巨头各自的优势和赛点分别会在哪里?

 

刘智勇:2026 年本体厂商肯定会收缩,马太效应会非常明显,估计中国最终只会剩下 5 到 8 家本体机器人公司。不过应用场景相关的公司和上游企业会多一些。

 

中国和国际企业的优势不一样,国际公司的大模型技术更先进,基础模型能力更强,国内企业还处在追赶状态,但中国企业拥有供应链成本优势。另外竞争维度也在升级,现在大家可能还在追求单点技术的先进性,到了 2026 年,整体系统的效率会变得更重要。

 

至于赛点,我觉得核心是在某个单一场景实现盈利,不是毛利而是不依赖大量售后成本的净利。谁能做到这一点,谁就能形成数据飞轮,有了数据之后,模型和方法能力会进一步提升,之后再推进跨场景复制。