标签 1X 下的文章

500万次围观，1X把「世界模型」真正用在了机器人NEO身上

展开列表

500万次围观，1X把「世界模型」真正用在了机器人NEO身上

今天

跳出「黑盒」，人大刘勇团队最新大语言模型理论与机理综述

今天

百川开源全球最强医疗大模型M3，「严肃问诊」定义AI医疗新能力

今天

相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会（报名开启）

01月13日

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

01月13日

无需重新训练，即可学习新任务，Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱

01月13日

不上云、不租卡，如何优雅地在本地微调Qwen-VL-30B？

01月13日

OpenAI的首款硬件：是AI耳机，今年销量要冲5000万

01月13日

华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

01月13日

大模型中标TOP10里的黑马：中关村科金的应用攻坚之道

01月13日

刚刚，梁文锋署名开源「记忆」模块，DeepSeek V4更细节了

01月13日

一个模型统一4D世界生成与重建，港科大One4D框架来了

01月13日

端到端智驾的算力困局，九章智算云这样破局

01月12日

真香！刚骂完AI，Linux之父的首个Vibe Coding项目上线

01月12日

引入几何约束后，VLM跨越了「空间推理」的认知鸿沟

01月12日

清华等团队用AI驱动百万倍速药物筛选，一天内十万亿次扫描的超高速虚拟平台

01月12日

2026年，大模型训练的下半场属于「强化学习云」

01月12日

顶尖AI竟输给三岁宝宝，BabyVision测试暴露多模态模型硬伤

01月12日

AAAI 2026 Oral｜快手提出全新「检索数据引擎」CroPS，打破搜索信息茧房

01月12日

被Jim Fan点赞！全球第一的千寻智能Spirit v1.5正式开源！

01月12日

500万次围观，1X把「世界模型」真正用在了机器人NEO身上

还记得那个穿着「Lululemon」紧身衣、主打温柔陪伴的家用人形机器人 NEO 吗？

上次聊到它时，大家还在吐槽其「远程操控」的隐私安全问题，调侃每个机器人的背后可能都是一个「印度小哥」。

昨天，1X 公司带着它的全新「大脑」亮相：1X World Model。这一次，NEO 似乎准备把「背后的操作员」给解放了。

简单来说，现在的 NEO 不再只是死记硬背动作，它学会了像人一样「想象」。通过观看海量的网络视频和人类第一视角的实操录像，它理解了物理世界是如何运作的：东西掉了会下落，门是可以推开的。

他们把类似 Sora 的视频生成技术装进了 NEO 的脑子里，接到指令时，它会先在脑海里生成一段「自己成功完成任务」的视频，然后倒推身体该怎么动，才能把这段想象变成现实。

不过，官方博客中也表示，有时候会出现「脑子学会了，手没学会」的情况：脑补出的视频很完美，但实际动作可能会抓空。

那么这一次是「瑜伽服」下的真功夫，还是只存在于 Demo 里的「剪辑魔法」呢？不管技术落没落地，热度已经先爆表了。到截稿时间，官方推文浏览量已突破 500 万。

看来，在经历了 AI 时代各式各样炫酷 Demo 的轮番轰炸之后，大家还是忍不住想看看：这一回，它是真长脑子了吗？

以下是 1X 技术团队对这颗「新大脑」的硬核拆解：

家庭机器人要真正走进现实环境，必须具备常识性的行为能力以及对物理世界的深刻理解。

当前许多机器人基础模型采用的是 VLA 范式：即在一个预训练的 VLM 之上，增加一个用于预测机器人动作的输出头（例如 PI0.6、Helix、Groot N1.5）。VLM 能够从互联网规模的数据中学习到丰富的知识，但其训练目标更侧重于视觉与语义理解，而非对物理动态过程的预测。

因此，即便是对人类而言非常简单的任务，模型往往也需要数万小时、成本高昂的机器人数据才能学会完成。此外，为了进一步强化模型对物理交互中空间关系的理解，研究者通常还需要引入各种辅助训练目标（如 MolmoAct、Gemini-Robotics 1.5）。

在这篇博客中，1X 介绍了基于视频预训练的世界模型——1XWM，并将其集成进 NEO 机器人作为其控制策略。

与 VLA 模型直接从静态的图像-语言输入中预测动作轨迹不同，世界模型驱动策略是通过文本条件下的视频生成来推导机器人应采取的动作。借助互联网规模视频中蕴含的真实世界动力学规律，该世界模型能够在无需大规模机器人数据预训练、也不依赖任何相关的遥操作演示的情况下，即可泛化到全新的物体、运动方式和任务场景。

这标志着机器人智能范式的一次转变：机器人开始直接受益于视频预训练规模化带来的能力跃迁，而这一切得以实现，离不开一整套为高保真人类具身到机器人具身迁移而设计的硬件系统支持。

从视频知识到世界模型

如今，诸如 Veo 和 Sora 等前沿文生视频模型已经能够生成极其逼真的视频内容。然而，这些模型在零样本生成场景下并未与机器人具身形态对齐，因而在控制任务所需的多个关键维度上往往存在不足，表现在以下几个方面：

视觉/空间层面：生成的视频是否与机器人的相机内参和自我中心视角一致？是否能够准确保留操控任务所需的深度信息以及精确的空间关系？
运动学层面：生成视频中的机器人动作是否在该具身形态下可实现，是否遵循其结构特性、关节极限、速度约束以及执行器能力？
物理层面：生成过程是否避免了物理上不可能的结果（例如物体瞬移），从而保证其能够转化为现实世界中的成功执行？

原始视频能够提供看起来会发生什么，但并未给出如何去做。为了将视频知识转化为真正可用于控制的世界模型，1X 借助自身的端到端系统架构，采用了一种两阶段的对齐过程，思路与 DreamGen、UniPi 等已有工作一脉相承：

世界模型主干：这是一个文本条件扩散模型：先在互联网规模的视频数据上进行预训练，随后在人类第一视角视频数据上进行中期训练，并最终在 NEO 专属的传感器-运动日志上进行微调。该模型能够高保真地预测场景随时间演化的过程，在视觉、空间和物理一致性方面表现出色。
逆动力学模型（Inverse Dynamics Model, IDM）：通过训练 IDM，将像素空间与执行器控制连接起来，使其能够预测在生成帧之间完成状态转移所需的精确动作序列。同时利用 IDM 的评估指标和拒绝采样机制，对生成结果施加运动学约束，从而确保动作在具身层面上的可行性。

在推理阶段，系统接收一个文本指令和一帧初始画面：世界模型负责生成符合意图的未来场景演化，逆动力学模型从中提取所需的动作轨迹，最终由机器人在现实世界中执行该动作序列。

1XWM 的训练与推理流程

1XWM 的主干模型基于一个 140 亿参数的生成式视频模型。为了使该模型适配 NEO 的具身形态，1X 还采用了一种多阶段训练策略：

第一视角中期训练：使用 900 小时的人类第一视角视频数据进行训练，使模型对第一人称的操作任务产生对齐。在这一阶段，模型能够学习到通用的操作行为模式，但仍然难以生成由 NEO 执行具体任务的视频。
具身微调：随后，使用 70 小时的机器人数据进行微调，使模型进一步适配 NEO 的视觉外观与运动学特性。

以 DALL·E 3 等工作为例，已有研究表明，通过使用更具描述性的视觉文本标注进行训练，可以显著提升视觉基础模型对提示词的遵循能力。然而，许多第一视角数据集仅包含简要的任务描述。为此，1X 利用一个 VLM 生成更加详细的描述性字幕，并通过字幕上采样的方式将其用于训练。

此外，IDM 在 400 小时未经过滤的机器人数据上进行训练，其中既包括随机探索数据，也包含与任何具体任务无关的运动轨迹。这使得模型能够在任意状态下对 NEO 的运动进行准确追踪。

在测试阶段，系统接收一帧初始画面以及一条指导 NEO 执行动作的文本指令。1XWM 负责生成未来的视频序列，随后由 IDM 从生成视频中提取对应的机器人动作轨迹，并将其直接下发至机器人执行。为保证轨迹的平滑性，IDM 的输出会在多个初始噪声样本和滑动窗口维度上进行时间平均处理。

^{NEO 后训练数据集主要包含高质量的抓取和放置数据（98.5%），这些数据经过筛选，仅包含桌面操作且手部可见的场景。通过利用基础视频模型的网络级预训练，1XWM 模型可以泛化到各种未曾见过的物体、环境和任务。}

1XWM 到底能做啥

研究团队进一步评估了 1XWM 在任务泛化方面的能力，重点关注其是否能够完成 NEO 从未经历过的任务，以及生成视频与真实机器人执行之间的一致性程度。

在实验中，搭载 1XWM 的 NEO 被用于执行多种超出既有经验的任务，包括：

抓取分布内与分布外的物体；
操作此前从未见过、但具备复杂可供性的物体；
完成需要全新动作模式的全新任务。

实验结果显示，1XWM 生成的视频与真实世界中的执行过程整体高度一致。将模型生成的视频与机器人实际完成任务后拍摄的视频进行并排对比，可以发现二者在视觉表现上非常接近。这表明，1XWM 在空间结构理解、运动学约束建模以及物理一致性等方面已经具备较强能力。

抓取：

新动作：清洁

接下来，1X 尝试需要双手协调和人机交互的任务。这些能力并未包含在训练数据集中。这表明此类知识来源于视频预训练和以第一人称视角进行的人机交互训练。由于 NEO 的身体结构与人类非常相似，因此从人类视频数据中学习到的功能可以直接迁移应用。

研究团队还通过系统性的实物实验评估了 1XWM 在分布内（ID）与分布外（OOD）任务上的表现。每类任务均重复执行 30 次。结果显示，1XWM 在多种动作原语上都保持了稳定的成功率，不过部分对精细操作要求较高的任务（例如倒液体、绘图等）仍然具有一定挑战性。

能否将视频质量与任务成功率联系起来？

如果可以，就能使用视觉指标来衡量和改进视频质量，并估计实际任务成功的可能性。

有时，生成的视频是否可能成功一目了然。例如，向 1XWM 模型输入拉取纸巾指令，有时会生成 NEO 机器人拿起纸巾盒而不是拉取纸巾的视频。执行这些错误生成的视频时，成功率几乎为 0%。

1X 团队注意到像测试时计算这样的方法可以提高任务成功率。受此启发，他们尝试并行生成多个视频，并执行其中质量最好的一个。这个选择过程可以手动完成，但也可以使用 VLM 评估器进行自动化。

第一视角数据与高质量字幕的重要性

基于此前假设：生成视频的质量与任务成功率之间存在相关性，研究团队对若干训练选择进行了视觉层面的消融分析，重点考察了字幕上采样以及第一视角人类数据训练这两项因素的影响。

实验共使用了三个评测数据集，每个数据集均包含 500 组起始图像–提示词对：

分布内数据集：包含与机器人训练数据分布一致的复杂任务和场景，主要是杂乱环境中、物体位置较为困难的抓取与放置任务。
新任务数据集：由一组全新的任务构成，例如搅拌碗、抽纸、相对尺寸判断（选择更大的物体）、双手协同操作等，数据采集于真实世界中的简单背景场景。
分布外 T2I（OOD T2I）数据集：完全由抓取任务组成，其初始帧由文生图模型生成，随机采样分布外的家庭物体与背景场景。

下面是新任务数据示例：

团队还要求人工标注员审查每个生成的视频，并根据物理合理性、任务完成情况以及与 NEO 的形态和能力的一致性来决定接受或拒绝该视频。

字幕上采样在所有评测数据集上都能提升视频生成质量，因为更细致的字幕与视频模型预训练时的文本条件更加匹配，也能更清晰地引导具体动作生成。

引入第一视角人类数据则显著提升了新任务和分布外场景下的生成质量，说明这类数据为操作任务提供了可迁移的通用先验，且与 NEO 的类人具身高度契合。

不过，在已有大量 NEO 数据覆盖的分布内任务上，额外加入第一视角数据可能会稀释后训练数据分布，对效果提升有限，甚至略有负面影响。

^{参考链接：https://www.1x.tech/discover/world-model-self-learning}

500万次围观，1X把「世界模型」真正用在了机器人NEO身上｜

最新文章

最近回复

分类

归档

其它