标签 人形机器人 下的文章

2025 年,技术世界看起来既热闹又拥挤。

从开源大模型引发全球讨论,到 Agent 能力快速演进;从低空飞行、人形机器人走向现实应用,到量子技术不断刷新实验纪录,前沿技术在多个方向上几乎同时取得进展。但当这些热点被放在同一时间轴上回看,一个更深层的共性逐渐浮现:技术竞争的重心,正在从单点能力突破,转向系统级、工程级与生态级竞争。即技术的想象空间仍在扩张,但技术价值的释放,正越来越依赖完整系统、基础设施能力以及产业协同水平。

在 AI 领域,这一变化尤为明显。开源模型、MCP 等协议、多模态与 Agent 进一步迈向实际生产环境,使竞争不再只围绕模型参数或单次效果展开,而是延伸到推理效率、成本结构、系统稳定性与可治理性等更底层的问题。与此同时,在实体与基础科技领域,eVTOL 适航审定取得突破、人形机器人进入公众视野、量子计算持续推进,也在不断放大工程化与规模化落地的复杂性。

在这样的背景下,InfoQ 研究中心完成了《中国软件技术发展洞察和趋势预测研究报告 2026》。这份报告并未试图给出统一结论,也没有将未来简化为几条明确路径,而是从事实盘点出发,对过去一年软件技术的发展状态进行了系统整理,试图还原不同技术方向在真实环境中的推进情况。报告更关注技术如何被使用、如何被限制、如何在复杂系统中产生实际影响。更多内容也欢迎各位读者点击「链接」,下载完整报告进行阅读。

回望 2025 ,模型仍在中心,但决定性因素已经发生迁移

2025 年一个明显的变化是,模型依然处在技术演进的中心位置,但讨论重点已经发生迁移。模型能力仍在提升,但其边际影响开始放缓,推理效率、成本结构、系统稳定性的重要性持续上升。在真实场景中,能否稳定运行、能否控制成本、能否嵌入现有系统,往往比单次能力表现更具决定性。

这一变化,直接将 AI Infra 推向了更靠前的位置。过去,基础设施更多被视为模型能力提升的配套条件,关注重点集中在算力规模、训练效率与资源调度;而在 2025 年的实际应用中,AI Infra 的核心价值,开始体现在对不确定性的吸收与管理能力上。推理阶段的成本控制、运行过程的可观测性、异常状态的隔离与回滚、跨系统的稳定衔接,这些能力正在成为 AI 能否进入核心业务流程的前提条件。

当 Agent 进入真实生产环境,这一趋势被进一步放大。

与能力展示型应用不同,能够执行具体任务的 Agent,其行为不确定性更高,执行失败、路径偏离、资源误用等问题更容易直接影响业务结果。在这一过程中,执行环境的隔离、权限边界的设定、状态记录与追溯能力,开始成为 Agent 系统不可缺少的一部分。AI Infra 在这里不再只是运行环境,更是治理框架的一部分。

从更长的时间尺度看,这种对基础设施能力的重视,正在重新塑造 AI 技术的演进节奏。模型能力仍在向前推进,但其价值释放越来越依赖 Infra 是否能够将复杂性留在系统内部,将稳定性交付给使用者。这一趋势,在 2025 年已经初步显现,也成为观察 2026 年技术走向时不可忽视的背景之一。

开发领域的变化尤为典型。Coding 场景率先完成了从能力展示到生产力工具的跨越,Vibe Coding 在实际工作中快速扩散,同时也暴露出代码质量、责任归属、流程治理等新的问题。这些变化,让开发者工具、工程规范与平台能力重新回到技术讨论的核心位置。

在大模型的更中心,我们也看到了新的方法论和模型架构正在持续推进。围绕 RLVF 等训练范式的探索,模型在对齐方式、反馈机制以及长期目标建模上的能力不断被强化。与此同时,多模态能力也在发生结构性变化,从早期的多模态拼接,逐步走向原生多模态,再到对原生全模态和世界模型的探索,模型试图以更统一的方式理解和生成复杂世界,甚至预测和改变物理世界。

更进一步,在生态层面,围绕 Agent 和工具协作的协议开始形成共识,开源与闭源在不同市场呈现出差异化路径。中国力量在这一过程中逐渐显现出自身的特点。从 2025 年的实际进展看,开源在中国技术生态中承担的角色正在发生变化。它不再只是代码共享或技术展示的载体,而是逐渐融入到标准共识、工程协作和生态协同之中。围绕模型、Agent、工具链和基础设施的开源项目,开始更多地服务于真实场景,推动技术在复杂环境中的适配与演进。

这些变化并非孤立发生,而是与前述模型演进、基础设施成熟度以及 Agent 落地进程相互交织。它们共同构成了 2025 年技术世界中一个不易被单一指标捕捉,却正在逐渐成形的重要背景,也为理解 2026 年技术走向提供了更具现实感的参照。更多内容也欢迎各位读者点击文末的「阅读原文」,下载完整报告进行阅读。

前沿技术拓展技术想象空间,并主动探索与 AI 的结合

除了 AI 本身,我们也看到了星地互联网、量子技术、低空飞行等领域在 2025 年出现了具有标志意义的进展。星地互联网在组网能力、覆盖密度和应用场景上持续推进,从验证通信能力,逐步转向面向真实业务的服务体系建设。量子技术在计算、通信和测量等方向继续取得实验层面的突破,同时也开始更多讨论其工程化路径与现实约束。低空飞行相关技术则在政策、基础设施和应用探索的共同推动下,加速从概念验证走向实际运行环境。

这些领域的发展路径各不相同,但一个共同特征是,都在主动探索与 AI 的结合方式。AI 被引入到复杂系统的调度、控制与决策之中,用于提升整体系统的运行效率和适应能力。在星地互联网中,AI 开始参与网络资源分配与链路管理。在量子技术相关研究中,AI 被用于辅助实验设计、参数搜索与系统优化。在低空飞行场景中,AI 则更多承担环境感知、路径规划与风险评估等任务。

从 2025 年的实践情况看,这种结合更多体现在局部能力增强,而非系统级重构。AI 并未改变这些技术的基本发展节奏,但正在逐步嵌入其关键环节,影响技术系统的复杂性管理方式。这也意味着,这些前沿领域的演进,正在越来越多地依赖于 AI 基础设施、算法稳定性以及系统工程能力的成熟程度。

这些探索尚处在不同阶段,却共同指向一个趋势。随着技术系统本身变得更加复杂,AI 正在成为连接不同技术要素的重要工具,而这种连接关系,也将在未来进一步影响这些领域的演进方式与应用边界。

展望 2026,InfoQ 研究中心十大技术趋势

技术演进常常伴随着喧嚣与关注,但真正决定其走向的变化,更多发生在基础能力、系统结构与生态关系的持续调整之中。那么,在 InfoQ 研究中心的观察中,2026 年的技术世界将呈现出怎样的状态?InfoQ 研究中心尝试用十大趋势的方式,对这个问题进行拆解和呈现。

  • 趋势一:收敛已久的 Transformer 架构,即将迎来分化与创新新阶段

  • 趋势二:RLVR 范式应用扩展与持续演进,经验学习等新范式正在路上

  • 趋势三:原生多模态成为默认能力,原生全模态加速成型,世界模型技术路线迎来首轮技术收敛周期

  • 趋势四:AI 推理基础设施凸显战略价值,系统化工程决定长期竞争力

  • 趋势五:Agent 迈向结果交付,Agent Infra 从算力基础演进为风险可控、可验证、可托付的业务级支撑

  • 趋势六:C 端应用,记忆机制与生态整合成为核心壁垒

  • 趋势七:AI 硬件持续在垂类场景破局,手机仍是核心管理与交互中心

  • 趋势八:有竞争就有动力,中国继续以开源撬动世界影响力

  • 趋势九:AI for Science 推动科研生态升级,科学伦理面临深刻变革

  • 趋势十:前沿技术交融,智能协作开启新格局,系统级能力强化科技与战略话语权

相关分析与完整内容,已收录在《中国软件技术发展洞察和趋势预测研究报告 2026》中。更多内容也欢迎各位读者点击「链接」,下载完整报告进行阅读,与 InfoQ 研究中心一同探索 2026 年的技术世界。

更多 AI 与技术前沿研究成果,也欢迎点击浏览「行业研究报告」专题。

整理 | 华卫

 

1 月 26 日,理想汽车 CEO 李想召开了一场两个小时的线上全员会。据多位内部员工反馈,李想强调,2026 年是所有想要成为 AI 头部公司上车的最后一年;最晚 2028 年,L4 一定能落地;最终全球布局基座模型、芯片、操作系统、具身智能等业务的公司不会超过 3 家,理想会努力成为其中一家。

 

“未来,理想会进一步强化具身智能的品牌定位,而不仅仅是创造移动的家。在汽车之外,理想一定会做人形机器人,并会尽快落地亮相。”而接下来,理想为了迎接新一轮的 AI 竞争,公司将对研发进行新一轮的组织变革,将研发团队按照基座模型团队、软件本体团队、硬件本体团队等进行划分,其中汽车、机器人等都归为硬件本体团队。

 

同时,李想表示,要去招聘最好的人,把原来那些去到机器人创业公司的人再招回来。在此之前,已经有不少智驾核心技术人员从该公司离职,去具身智能赛道创业了。2025 年下半年,前理想自动驾驶研发负责人贾鹏、量产负责人王佳佳与前 CTO 王凯等核心高管一起创办了具身智能公司至简动力,且很快就拿到多家头部美元基金和互联网科技公司的投资意向。

 

当前,理想已在官网社招页面放出多个人形机器人研发岗位。从招聘信息可以看出,其研发项目几乎覆盖了人形机器人从核心部件到系统集成的全流程。

 

在 2025 年三季度业绩会上,李想公开表示,现在电动车行业拼参数已经拼到死胡同了,做智能终端又容易变成把手机应用搬到车里,属于重复建设,所以理想选了第三条路:把车定义成“具身智能”产品,让它从单纯的交通工具,变成有感知、有大脑、有神经、有心脏、有身体的“机器人”。

 

事实上,早在 2024 年底的 AITALK 上,李想就说过,理想做人形机器人是肯定的,但还没到合适的时机。然而,此前,因为技术跟不上、人形机器人供应链不成熟等问题,理想暂停了人形机器人自研项目。

 

但理想在泛机器人领域的布局也一直在进行。2025 年 6 月还有消息称,理想成立了“空间机器人”和“穿戴机器人”两个二级部门,都归高级副总裁范皓宇带领的产品部管,智能眼镜 Livis 是首款产品。

 

在 IDC 最新发布的《全球人形机器人市场分析》报告中,一个关键信号被反复提及:人形机器人开始进入可复制、可交付的规模化商用阶段

在这份报告中,IDC 选择用“出货量”而非“项目数”、“合作数”作为核心衡量指标。

报告中还提到,人形机器人正在从单一硬件销售,向 “硬件 + 平台 + 服务” 组合模式演进,其中包括 RaaS(Robot-as-a-Service) 等形式 。

其中的数据显示,2025 年全球人形机器人出货量约为 1.8 万台,同比增长约 508%,销售额约 4.4 亿美元(约合人民币 30.6 亿元),其中中国厂商占据主导位置。

还将当前人形机器人的主要落地需求,归纳为六大类场景

  • 文娱商演

  • 科研教育

  • 数据采集

  • 导览导购

  • 工业制造

  • 仓储物流

这些场景有一个共同点:强调可控任务、明确边界和可持续交付。

从 IDC 的统计口径来看,当前需求并未集中在单一行业,而是分散在上述六大场景中。这种分散本身,反而说明一个问题:市场或者并不是在等待“完美的人形机器人”,而是在寻找“现在就能用的那一部分能力”

其中,有一家公司成立仅三年,就已经在六大应用场景中的五类,都实现了出货量第一:这家公司就是智元机器人。

此外,智元以 5200 台的出货量夺得全球榜首,还拿下了“全尺寸细分领域出货量第一”的桂冠。

IDC 在报告中特别区分了不同形态的人形机器人,其中全尺寸人形机器人在 2025 年贡献了 41.6%的市场收入份额,成为最主要的收入来源。

所谓全尺寸机器人,并非外形更像人,而是按照成年人的身体尺度与关节结构设计,对人类的空间(如展陈、导览、科研实验室)适配度高。

不过,与其说全尺寸人形机器人更“先进”,不如说是现实条件更早将其推向商用——高成本和高部署门槛,使其难以长期停留在实验或演示阶段,只能优先进入需求明确、具备支付能力的场景,并在真实使用中完成迭代。

值得一提的是,智元凭借软硬件全栈技术能力、快速的市场拓展、完善的生态建设以及多元化的商业模式,实现了 1300 台出货量,亦位居全球市场行业第一。

在 IDC 的这份报告中还提到,人形机器人正在从单一硬件销售,向 “硬件 + 平台 + 服务” 组合模式演进,其中包括 RaaS(Robot-as-a-Service) 等形式 。

这背后也算是现实原因驱动:比如短期活动、科研采集、阶段性项目中,租用能力比拥有设备更重要。这类模式的出现,也在一定程度上降低了人形机器人进入真实场景的门槛,加速了早期需求的释放。

而全球首个机器人租赁平台“擎天租”,也是来自于智元。智元表示平台上线 3 周,注册用户数已突破 20 万,日均租赁订单稳定在 200 单以上。

参考链接:https://my.idc.com/getdoc.jsp?containerId=CHC54064426&pageType=PRINTFRIENDLY

在 IDC 最新发布的《全球人形机器人市场分析》报告中,一个关键信号被反复提及:人形机器人开始进入可复制、可交付的规模化商用阶段

在这份报告中,IDC 选择用“出货量”而非“项目数”、“合作数”作为核心衡量指标。

报告中还提到,人形机器人正在从单一硬件销售,向 “硬件 + 平台 + 服务” 组合模式演进,其中包括 RaaS(Robot-as-a-Service) 等形式 。

其中的数据显示,2025 年全球人形机器人出货量约为 1.8 万台,同比增长约 508%,销售额约 4.4 亿美元(约合人民币 30.6 亿元),其中中国厂商占据主导位置。

还将当前人形机器人的主要落地需求,归纳为六大类场景

  • 文娱商演

  • 科研教育

  • 数据采集

  • 导览导购

  • 工业制造

  • 仓储物流

这些场景有一个共同点:强调可控任务、明确边界和可持续交付。

从 IDC 的统计口径来看,当前需求并未集中在单一行业,而是分散在上述六大场景中。这种分散本身,反而说明一个问题:市场或者并不是在等待“完美的人形机器人”,而是在寻找“现在就能用的那一部分能力”

其中,有一家公司成立仅三年,就已经在六大应用场景中的五类,都实现了出货量第一:这家公司就是智元机器人。

此外,智元以 5200 台的出货量夺得全球榜首,还拿下了“全尺寸细分领域出货量第一”的桂冠。

IDC 在报告中特别区分了不同形态的人形机器人,其中全尺寸人形机器人在 2025 年贡献了 41.6%的市场收入份额,成为最主要的收入来源。

所谓全尺寸机器人,并非外形更像人,而是按照成年人的身体尺度与关节结构设计,对人类的空间(如展陈、导览、科研实验室)适配度高。

不过,与其说全尺寸人形机器人更“先进”,不如说是现实条件更早将其推向商用——高成本和高部署门槛,使其难以长期停留在实验或演示阶段,只能优先进入需求明确、具备支付能力的场景,并在真实使用中完成迭代。

值得一提的是,智元凭借软硬件全栈技术能力、快速的市场拓展、完善的生态建设以及多元化的商业模式,实现了 1300 台出货量,亦位居全球市场行业第一。

在 IDC 的这份报告中还提到,人形机器人正在从单一硬件销售,向 “硬件 + 平台 + 服务” 组合模式演进,其中包括 RaaS(Robot-as-a-Service) 等形式 。

这背后也算是现实原因驱动:比如短期活动、科研采集、阶段性项目中,租用能力比拥有设备更重要。这类模式的出现,也在一定程度上降低了人形机器人进入真实场景的门槛,加速了早期需求的释放。

而全球首个机器人租赁平台“擎天租”,也是来自于智元。智元表示平台上线 3 周,注册用户数已突破 20 万,日均租赁订单稳定在 200 单以上。

参考链接:https://my.idc.com/getdoc.jsp?containerId=CHC54064426&pageType=PRINTFRIENDLY

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

巫山县城建在山坡上,为了方便居民和促进观光,在中轴线上建设了神女大扶梯,总长905米,高240余米,相当于80层楼,全程需要20分钟。(via

独立软件的黄昏

软件可以分成两种:一种是公司开发的,另一种是个人开发的。后者就称为"独立软件"(indie software)。

它的历史非常悠久,从古至今,很多程序员依靠出售独立软件谋生。

有一种东西"共享软件"(Shareware),年轻的朋友未必知道,二三十年前曾经非常流行。用户免费使用软件的试用版,如果满意,就向开发者购买一个注册码。

这就是一种独立软件,当年很多著名软件都是这个模式,比如国外的 WinZip 和 WinRAR,国内的网络蚂蚁(NetAnts)、网际快车(FlashGet)、豪杰解霸。

时至今日,大家看看目前流行的软件,还有多少属于独立软件?你每天使用的软件,又有多少是个人开发的?

很少很少了。

一位二十年的独立软件开发者哀叹现在的市场上,公司开发的比重越来越大,个人开发的比重越来越小,独立软件正在没落。

"我销售自己的软件20年了,2005年以后,互联网开始普及,独立软件迎来了黄金年代。而最近两三年,环境一直在快速变化,销售明显变难了,我感觉自己越来越难维持生计了。"

独立软件的大发展,是从2005年开始的。

  1. 互联网的普及,网民数量急剧增长。
  2. 智能手机创造了手机软件,一个全新的软件大市场。
  3. 在线支付的普及和简化。
  4. 互联网使软件分发变得容易且免费。
  5. 免费的高质量开发工具(编译器、IDE、版本控制系统、Web 服务器)不断涌现。

这些因素让程序员切切实实获利了,要是你再做一些 SEO、买一些付费广告,完全可能赚到大钱。很多人就是这样发展起来的,从独立软件变成了大公司。

但是,最近两三年情况变了,上面这些因素都到头了。

独立软件正在慢慢退潮,你能够想起名字的独立软件越来越少,更不要说掏钱购买了,即使有也是多年前的作品。根据我的观察,依靠出售自己软件维生的程序员似乎也在减少。

主要原因有下面几个。

(1)AI 改变了互联网流量,独立软件失去了推广渠道。网站的访问量显著减少,人们更多跟大模型交互,而不是浏览网页。通过搜索引擎和在线广告获取流量的策略,越来越没有效果。

视频是为数不多仍然有效的推广渠道之一,但制作视频非常耗时,而且竞争异常激烈。另外,AI 生成的劣质视频迟早会大量出现,推广效果也会变差。

(2)AI 使得软件开发变得容易。它加快了开发速度,降低了进入门槛,让更多人加入竞争。以前,用户可能购买某个功能,现在直接让 AI 生成即可。

(3)新软件汗牛充栋,越来越难脱颖而出。iPhone 应用商店有大约200万个应用,用户很难发现你。另一方面,应用商店更喜欢推广那些能帮它赚更多钱的大公司软件,而不是独立软件。

(4)人们越来越习惯使用基于网络的软件,独立软件属于需要下载安装的原生应用,它的市场在萎缩。

基于网络的软件与其说是产品,不如说是一种服务,全天候24小时可用的服务。越来越多的个人开发者顺应这种趋势,改为以提供 SaaS 服务为主。

(5)平台的风险。现在的很多独立软件,都依靠云服务商的平台或底层服务,而平台随时会改变规则(比如关闭 API),或者推出竞品,一大批应用随之死掉,这种事情屡见不鲜。

(6)用户期望软件是免费的,或者非常便宜。售价略微高一点,就会无人问津。因此,独立软件要想获得可观的回报,就需要巨大的销售规模,这根本做不到。别的不说,个人开发者完全无力提供满意的客服。

(7)以上这些因素将长期存在,只会加深,不会逆转。独立软件的时代可能真的要结束了,个人开发者以后大概很难靠销售自己的软件为生,而要改为销售自己维护的 SaaS 服务,尽管这也很难。

科技动态

1、VS Code 的定位

微软公司的 VS Code 是非常流行的代码编辑器,市场份额很高。

现在的官网上,它的产品定位是"开源 AI 代码编辑器"。

但是,2025年上半年,它的产品定位还是"你的代码编辑器,由 AI 重定义"。

更早的2024年,产品定位是"重新定义的代码编辑"。

令人感慨啊,这么成功的软件,AI 本来只是附属功能,现在也要蹭热点,把自己包装成 AI 主导的产品。

2、智能脖巾

英国科研人员发明了一种智能脖巾。它围在脖子上,可以感受到穿戴者的心跳和喉部肌肉运动。

它的用户主要是中风后丧失说话能力的人。这些人可以张嘴,做出说话的口型,但是无法正常发音。

他们佩戴这个脖巾后,颈部的运动数据就通过它传给电脑,经过模型训练,可以用电脑语音还原出用户想说的话。

3、雪宝机器人

人形机器人何必一定做成人形。

迪斯尼最近发布了一个机器人,样子就是电影《冰雪奇缘》的雪宝。

它用来在迪斯尼乐园,跟游客互动。

它启示我们,人形机器人做成卡通形状也很好。

另外,LG 公司在美国 CES 展会上,展示了他们最新的家务机器人

这个机器人的功能就是做家务,比如叠衣服和洗碗。我觉得,国内厂商可以借鉴,展示机器人功能时,不要展示跳舞打拳,而要展示如何做家务。

文章

1、别用 MySQL,改用 MariaDB(英文)

曾经的明星数据库 MySQL,最近几个月的代码提交数为0(上图)。作者认为,种种迹象表明甲骨文已经放弃了这个项目。

2、10秒获得 AI 代码评审结果(英文)

本文介绍一个技巧,让 AI 快速给出提交代码的评审结果,方法是不要提交整个代码库,只提交 diff 的部分。

3、使用 Pandoc 生成静态网站(英文)

文档格式转换工具 Pandoc 可以用来生成静态网站,作者介绍自己是怎么做的。

4、锚点元素<a>的一些鲜为人知的地方(英文)

锚点元素<a>用来生成链接,本文介绍如果链接到一些特殊字符的情况。

5、学习自定义元素(英文)

一篇 HTML 自定义元素的教程文章,写得简单清晰。

6、Go、Rust 和 Zig 的一些想法(英文)

作者是一个高级程序员,谈谈他对 Go、Rust、Zig 三种语言的感受。有趣的地方是,这三种语言都没有类,也不支持面向对象编程。

7、我的个人基础设施(英文)

作者介绍他自己的家庭实验室。比较有趣的是,他的个人网站是本地构建后,自动用 Syncthing 同步到服务器,这对小型静态网站确实简单。

工具

1、GoRead

开源的电子书阅读器应用,支持桌面与移动端(Android/iOS)。(@zhashut 投稿)

2、EasyPostman

用于 API 调试的跨平台桌面应用,对标 Postman + JMeter。(@lakernote 投稿)

3、Port Sentinel(端口哨兵)

Windows 桌面应用,查看端口占用情况。(@Sanjeever 投稿)

4、Building Sunlight Simulator

基于 Web 的楼盘采光 3D 日照模拟工具,帮助购房者评估小区采光。(@SeanWong17 投稿)

5、Office App

一个纯本地的 Office 网页应用,可以离线在网页创建/编辑 Word、Excel、PowerPoint 文件。(@baotlake 投稿)

6、ScreenshotSnap

免费的网站截屏在线工具,提供 API,可以直接将截图代码插入网页。(@phpiscute 投稿)

7、tsshd

SSH 服务器登录协议的全新实现,特点是连接不掉线,可以重连前一个对话。(@lonnywong 投稿)

8、AirScan-QR

一个开源网页应用,通过动态二维码发送/接收文件。(@topcss 投稿)

9、LuCI Bandix

开源路由器操作系统 OpenWRT 的一个插件,可以监控局域网各设备的实时流量和目的地。(@timsaya 投稿)

10、pure-genealogy

开源的网页族谱工具,用来生成家族族谱,基于 Next.js + Supabase。(@yunfengsa 投稿)

11、mdto.page

这个网站免费将 Markdown 文件转成 HTML 格式,发布成公开访问的网页。

AI 相关

1、ChatGPT 翻译

OpenAI 悄悄发布的翻译功能,只有在官网可用。

2、Mango Desk

一个跨平台的桌面应用,使用自然语言进行本地文件搜索。(@moyangzhan 投稿)

3、OpenWork

Claude 公司新产品 CoWork 的开源替代品,让普通用户不编程,就能完成文件操作,定位就是"Claude Code 的非编程版"。

另有一个类似项目 Open Claude Cowork。(@aiagentbuilder 投稿)

4、Wolfcha(猹杀)

开源的网页游戏 AI 狼人杀,除了玩家自己,其他所有角色(女巫、猎人、守卫、狼人等)都由 AI 扮演。(@oil-oil 投稿)

资源

1、维基百科25周年

维基百科是2001年1月13日上线的,今年是25周年纪念。这个网站是官方的纪念网站,以互动形式展示了发展历程。

另外,还有一篇文章,介绍互联网档案馆的历史(下图)。

2、HTTP:COLON

这个网页可以查看指定网站返回的 HTTP 标头,详细解释每个字段的含义。

3、现代 Java(Modern Java)

面向初学者的 Java 语言教程。

图片

1、中国新能源建设的惊人规模

90后摄影师储卫民拍摄的中国新能源建设。

他说:"从地面上很难体会这些发电厂的规模,但当你升到空中时,就能看到它们与山脉、沙漠和海洋之间的关系。"

青海冷湖镇

浙江象山县

青海塔拉滩

内蒙古阿拉善

"我一开始只是拍摄风景,但2022年我去贵州、云南、青海等地旅行时,不断看到风力发电场和太阳能发电厂出现在我的镜头里。我意识到这就是我们这个时代的故事----但几乎没有人系统地记录它。"

文摘

1、谷歌14年工作的教训

大约14年前,我加入谷歌,以为这份工作就是编写优秀的代码。

这个想法部分正确。但随着时间的推移,我越来越意识到,真正成功的工程师不一定是最优秀的程序员,而是懂得驾驭代码之外一切的人。

下面就是我得到的经验教训。有些教训是我走了几个月的弯路得到的,还有一些需要数年才完全领悟。它们都与具体的技术无关----技术变化太快,根本无关紧要。

(1)工程师想在大公司生存,必须学会沟通。

因为在大公司,团队是组织的基本单位,推进项目必须跟其他团队沟通。项目越大,你花在跟其他人、其他团队沟通的时间就越多,比编写代码的时间还多。大多数"慢"的团队实际上是不沟通的团队。

为了顺利沟通,清晰是第一位的要求。它不仅可以加快沟通,还能降低代码风险。最优秀的工程师都会用清晰易懂的代码来代替炫技。

为了提高表达的清晰性,你可以尝试写作和去教别人。如果你能用简单的语言解释某件事,你就是真的理解它了。

(2)想要得到晋升,必须有人为你说话。

职业生涯初期,我曾认为优秀的工作成果代表了一切,但我错了。代码默默地躺在代码库里,不会为你说话。

那些对你至关重要的会议,你本人很可能没有机会参加。你需要你的经理、同事在会上提到你、推荐你。他们可能这样做,也可能不会。

平时工作中,你尽量不要为自己增加阻力。如果开会的时候,你赢得每一场辩论,很可能就是在积累无声的阻力。你之所以"赢",不是因为你说服了别人,而是因为他们不再与你争论,放弃了,将会在其他场合表达这种不满。

(3)专注于你能控制的事情,忽略你无法控制的事情。

很多事情,你改变不了,不要为这种事情烦恼。这不是被动接受,而是策略性分配精力。如果你把精力浪费在无法改变的事情上,就等于放弃改变那些原本可以改变的事情。

(4)简化工作往往可以提高绩效。

当系统运行缓慢时,人们的第一反应是增加缓存层、并行处理和更智能的算法。有时这样做没错,但我发现,删除不必要的工作几乎总是更有效果。下次进行优化之前,你要先问问自己这项工作是否应该存在。

(5)时间比金钱更有价值,你要抓紧时间。

职业生涯初期,你用时间换取金钱,各种事情都做----这无可厚非。但到了某个阶段,情况就完全不同了,你会开始意识到,时间才是不可再生资源。你要专注于那些对你最重要的事情,放弃其他事情。

言论

1、

-- 一位程序员评论 OpenAI 宣布在 AI 对话中加入广告

2、

Netflix 的电影不追求视觉效果,因为大多数观众是在手机、平板和笔记本电脑上看,内容不需要为大银幕制作、而是为小屏幕制作的。

-- 马特·达蒙,美国著名演员

3、

我从未见过哪个群体比程序员更热衷于分享知识。其他行业都是严守知识、保守秘密,程序员则是免费提供源代码、书籍、博客文章、演示文稿、视频教程等等。

编程领域没有什么神圣不可侵犯的东西。如果你想学习,你可以找到免费书籍、完整的源代码、论坛、聊天室、邮件列表、线下聚会、博客文章、视频讲座、教程以及你可能需要的一切资源。尽管举手,总会有人乐于助人,倾囊相授。

-- 《我是如何学习所有编程知识的》

4、

今年的 iOS 26 中,一些 UI 元素利用 HDR 屏幕,采用高光,比纯白色更亮。如果你曾经在 iPhone(或其他任何支持 HDR 的屏幕)上看过 HDR 照片,然后再看看以 SDR 模式显示的 UI,你就会知道它看起来有多么灰暗黯淡。

-- 《亮模式的膨胀》,作者发现 iOS 每年都变得更亮,容易产生视觉疲劳,让他不得不使用暗模式

5、

如果你想批评大型组织的运作方式,首先要了解它们为何如此运作。否则,批评会显得尖锐,但却毫无意义。

-- 《关于大型软件公司的常见误解》

往年回顾

年底的未来已来(#335)

为什么 PPT 不如备忘录(#285)

青年失业率与选择创业(#235)

美国宪法拍卖,一个区块链案例(#185)

(完)

近年来,随着AI大模型、传感器技术和机器人硬件的进步,具身智能(Embodied AI)逐步从理论探索迈向实际部署。2025年后,行业进入“生态构建”关键期,企业与政府开始联合推进标准化、平台化和开放化发展 。2026年被视为具身智能实现多场景渗透与产业闭环验证的重要节点。OpenAtom openKylin(简称“openKylin”)社区作为以技术创新为目标的根社区也已经着眼布局此领域。

在 Community SIG 的协调组织下,openKylin 社区 ROS SIG、OpenLoong SIG、RISC-V SIG、Release SIG 四大 SIG 凝心聚力、分工协作,正式启动 RISC-V 架构具身智能人形机器人适配计划,此次计划填补了社区在具身智能人行机器人领域的生态空白。
联合SIG工作计划
01openKylin适配运行
在2026年2月上旬,基于openKylin桌面版本完成ros2 jazzy core/base/desktop 在超睿物理硬件平台上的可运行验证。确保核心包可以正常安装卸载,模拟程序(如 turtlesim)可以正常运行。
02测试验证ROS软件包
在2026年3月中旬,开始基于机器人真机和openKylin系统测试验证 ROS 软件包。并在3月下旬基于人形机器人进行功能演示。
03贡献ROS代码和补丁
完成所有功能测试和演示后按照社区规范向 openKylin 社区贡献 ROS相关代码和补丁。目前该计划聚集上海苦芽科技有限公司、先进计算与关键软件海河实验室、麒麟软件有限公司、OpenLoong社区、超睿科技(上海)有限公司。

openKylin社区也欢迎更多对此计划感兴趣的组织加入,共同推动RISC-V架构具身智能人形机器人的生态繁荣!

国内首个可复现!萝博派对公开人形机器人 “从 0 到跑” 全开源方案

0%
icon展开列表
国内首个可复现!萝博派对公开人形机器人 “从 0 到跑” 全开源方案
今天
img
联发科天玑9500s、8500发布:GPU、光追拉满,红米Turbo 5Max将搭载
今天
img
通用级PixVerse P1的技术突破,揣着进入平行世界的密码
今天
img
Mira公司内乱?CTO被开除,带团队回OpenAI,翁荔上推发言
今天
img
Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
今天
img
刚刚,喝到了千问APP给我点的奶茶
今天
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
今天
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
今天
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
今天
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img

国内首个可复现!萝博派对公开人形机器人 “从 0 到跑” 全开源方案

2026 年 1 月 15 日,萝博派对(Roboparty)在官方 GitHub 仓库正式完整开源双足人形机器人 “萝博头原型机(Roboto_Original)”,并同步启动全球开发者共创计划。

这款搭载拟人步态的 AMP 运控算法、跑步速度达 3m/s 的原型机,凭借全栈透明的技术开放模式,成为目前全球范围内技术成熟度领先的全开源人形机器人。

不同于“只开源代码或只开源结构图”的碎片式开放,本次开源以“可复现、可二开、可验证”为目标,覆盖参考硬件、控制/训练栈、工程化调试与验证方法,以及长期维护的行业 Know-how 共创知识库。

萝博派对希望把“从 0 到跑”做成行业共享的具身 Infra 底座:把路径标准化、把经验工具化、把验证流程公开化,推动行业把时间用在真正的场景与能力突破上。

全栈开源,直击人形机器人开发痛点

人形机器人真正的门槛,往往不在某一个算法点,而在“从设计—装配—标定—训练—验证—迭代”的系统工程。基于此,萝博派对针对行业长期存在的三大核心痛点——闭源导致开发壁垒高、设计规范缺失、架构标准不统一——以“可复现、可二开、可验证”为目标,正式发布双足人形机器人“萝博头原型机”的全栈开源方案,并同步推出“动手学人形机器人问题清单”Know-how 共创文档,推动行业经验从“各自积累”走向“公开共享”。

在硬件层面,萝博头原型机公开 1.2m 身高、30kg 重量级本体的全套结构图纸,覆盖关节排布、线束收束方案以及金属结构件选型标准等关键设计细节。同时,项目同步开放关节模组核心参数、选型指南与拆机报告,并提供国内优质供应商清单,配套完整 EBOM 物料清单与 SOP 组装流程,从采购、装配到复现路径形成闭环,显著降低硬件研发与复刻门槛。

在软件与控制层面,项目开放底层控制全量代码,涵盖模仿运动、感知运动与导航运动三大核心模块,并支持 SMPL-X 人体模型适配,使开发者能够直接复用海量人体动捕数据,减少新任务开发中的微调成本,提升能力迁移效率,缓解传统控制方案在泛化性与工程落地上的不足。同时,萝博头原型机同步开源拟人步态的 AMP 运控算法代码,为步态自然度与运动稳定性的进一步迭代提供可直接复用的技术基础。

在工程化落地层面,萝博派对将研发过程中形成的 sim2real gap 弥补方案、样机测试矩阵与调试经验总结系统化公开,并同步沉淀关键避坑要点与流程规范,帮助开发者与合作团队减少重复试错、提升调试效率,让“跑起来”不再依赖隐性经验,而是可以被复现、被验证、被持续迭代的工程流程。

与此同时,萝博派对长期建设并持续维护“动手学人形机器人问题清单”共创知识库,覆盖行业发展、硬件研发、软件研发与生产制造等关键环节,旨在将行业讨论从“表演型炫技”拉回“实用落地”。该知识库主张人形机器人优先解决行走稳定性、抗摔性等基础能力,并围绕尺寸、重量、散热、成本等量产关键问题展开共建,以“全员编辑、按紧急度排序”的开放机制,将单一团队的经验沉淀升级为“全行业共建的落地指南”,推动行业从“各自试错”走向“协同突破”。

核心突破:性能与步态双达标

萝博头原型机的关键优势,在于“硬件性能”与“控制体验”的同步提升。

在运动能力上,原型机跑步速度达到 3m/s 级别,跻身全球全开源人形机器人第一梯队,回应了行业长期存在的“开源性能滞后于闭源”的刻板印象。为支撑高速与稳定运行,硬件端采用类车规级本体结构与高刚性金属材料,提升力传递效率与整体结构稳定性;同时通过模块化关节模组实现更高的扭矩密度与更快的动态响应,为跑步与复杂动作提供可靠的执行基础。

在控制体验上,萝博头原型机搭载拟人步态的 AMP 运控算法,作为其核心控制能力底座。该算法基于数据驱动范式,并深度适配 Behavior Foundation Model(BFM)预训练框架,通过学习人体动捕数据,使机器人的行走与跑步更贴近人类生物力学特征,在提升动作自然度的同时兼顾稳定性表现,能够在复杂路况中保持更可靠的姿态控制。同时,这一范式显著降低新步态与新任务的微调成本,使步态扩展从“重研发”转向“可迁移、可复用”的工程流程。

对开发者而言,这意味着在不额外承担高昂研发投入的前提下,即可获得兼具高性能与自然步态的人形机器人参考方案,并在此基础上更高效地进行二次开发与场景适配,加速具身能力向真实应用落地。

生态共建:以开源推动协同创新

此次开源是萝博派对推进人形机器人行业协同生态建设的关键一步。在开发者生态层面,团队已搭建面向行业的技术交流与共创网络,吸引上市公司技术负责人、高校科研人员及创业公司核心成员等专业群体加入,形成更高效率的技术交流与资源共享平台,持续推动经验沉淀与问题协作解决。

在商业与产业层面,该项目已获得经纬创投、小米战投、光源资本等机构的千万美元种子轮融资。萝博派对认为,这不仅是对团队技术路线与工程能力的认可,更是对“具身智能 Infra 化”路径的验证:通过开源与标准化,把开发所需的关键链路沉淀为可复用的基础设施,让行业将更多精力投入到真实场景与能力创新之中。

“我们的目标是让具身智能的开发成本降低 80%。”萝博派对团队表示,当硬件不再成为门槛、算法不再是黑盒,具身智能才能真正进入“千行百业”的应用阶段,形成规模化的产业价值。

除开源共创外,萝博派对也为产业伙伴提供 JDM(联合定义制造)设计与联合开发,加速从参考样机到工程化交付的全流程,覆盖结构/电气/控制集成、BOM 与供应链、试产与测试矩阵等关键工作。

目前,全球开发者可通过官方渠道获取核心资源与参与共创:

萝博头原型机开源仓库已在 GitHub 上线,作为从硬件到软件的汇总入口,保持持续更新。

萝博派对 Github :https://github.com/Roboparty/roboto_origin

同时,团队长期维护“动手学人形机器人问题清单”Know-how 文档,鼓励开发者通过社区参与编辑、提交行业痛点与复现经验,共同建设可持续迭代的落地知识库。

“动手学人形机器人问题清单” Know-How 文档:roboparty.com/roboto_origin/doc

萝博派对将持续基于社区反馈优化技术方案,推动行业从“各自为战”走向“协同共赢”,并欢迎全球开发者加入共创,探索人形机器人技术在真实场景中的实用化落地路径。

人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」

0%
icon展开列表
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
今天
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
今天
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
今天
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
01月14日
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
01月14日
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
01月14日
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img

人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」

图片

胡宇航(网名 “U 航”),毕业于美国哥伦比亚大学,博士学位,首形科技创始人。长期专注于机器人自主学习的研究工作。研究成果发表于《Nature Machine Intelligence》,《Science Robotics》等国际顶级期刊。致力于赋予机器人 “自我模型” 能力,即构建对自身物理结构与运动的内部表征,使机器人能够更好地理解自身,并适应多变的形态、环境与任务。在仿生人机交互方向,他提出融合语音、视觉与动作的情绪理解与表达一体化系统,为机器人提供更加自然的交互能力。通过自监督学习机制,他的方法使机器人在无需人工干预的情况下不断提升人机互动质量,朝着具备终身学习能力的智能体不断迈进。

图片

论文地址:https://www.science.org/doi/10.1126/scirobotics.adx3017

曾发表论文:

  • Hu, Yuhang, et al. "Human-robot facial coexpression." Science Robotics 9.88 (2024): eadi4724.

  • Hu, Yuhang, Jiong Lin, and Hod Lipson. "Teaching robots to build simulations of themselves." Nature Machine Intelligence (2025): 1-11.

  • https://mp.weixin.qq.com/s/HdnbBweZseTjMedyWHDLSg

2026 年 1 月 15 日,一项来自美国哥伦比亚大学工程学院的突破性研究正式发表于《Science Robotics》,并登上期刊封面。该研究展示了一项全新的机器人技术:一台具备仿生面部结构的人形机器人,通过深度学习实现与语音和歌曲同步的真实唇部运动。它能跟着人类的语言精准张合嘴唇,甚至,能跟着音乐唱歌。标志着人形机器人在人类最丰富的交流通道之一唇部表达上,迈出了突破性一步。

为什么 “嘴唇” 如此重要?

研究显示,在面对面的交流中,人类将近一半的注意力集中在唇部运动上。我们或许能容忍机器人走路笨拙、手部动作僵硬,但哪怕极其轻微的不自然面部表情,都会立刻引发本能的不适。这正是著名的 “恐怖谷”。

长期以来,即便是最先进的人形机器人,在 “说话” 时也只能做出类似木偶的张合动作 —— 如果它们有脸的话。但这一次,情况正在发生改变。

一个会自主学习表情的机器人

在这项研究中,研究团队打造了一张高度仿生的机器人面孔:

在一层柔性硅胶皮肤之下,隐藏着 20 余个微型电机,能够快速、安静且协同地驱动唇部形变。

图片

图 2. 机器人唇形硬件结构。(A)面部机器人设计概览,重点展示了人机交互关键组件:包括扬声器、麦克风、高清摄像模块,以及用于固定柔软硅胶面皮的磁吸式快拆连接器。该连接器能实现面皮的精准定位,并通过推拉双向运动驱动硅胶面皮,完成说话时所需的复杂唇部动作。(B)搭载柔软硅胶面皮的人形机器人外观展示。其底座内部集成有边缘计算设备。(C)唇部驱动系统特写,展示上唇、下唇与唇角连接器分别对应固定于相应唇部支架。柔软可替换的面皮通过磁吸连接器固定,可便捷拆卸以进行维护或个性化调整。

随后,机器人被 “带到镜子前”…

就像一个第一次对着镜子学做表情的孩子,机器人通过观察自己面部在不同电机驱动下的变化,构建 Facial Action Transformer (FAT) 模型,逐渐学会如何控制自己的脸(机器人自我建模 Robotic Self-modeling)。研究团队将这一过程称为一种 “视觉 — 动作” 的自监督学习

图片

图 3. 机器人能实现的口型及其对应音标展示。该机器人展示了再现关键英语音标的能力,例如爆破音(/p/ 和 /b/)、双唇音(/m/)以及圆唇元音(/u/ 和 /o/)。通过独立控制上唇、下唇及嘴角,每帧图像均捕捉到其实现的典型唇部运动效果。这些数据为机器人在说话时实现正确的唇形匹配奠定了基础。

依靠纯声音驱动嘴形动作

接着,机器人通过观看合成的机器人视频(通过 Wav2Lip)在不同语音语料(由 TTS 和 ChatGPT 生成)的真实唇部变化,进一步学习声音与唇部运动之间的对应关系。最终,这两种能力被整合在一起 —— 机器人得以将收到的声音信号,直接转化为连续、自然的唇部运动。无需理解语义,机器人已经能 “对得上口型”。

图片

图 4. 机器人唇形同步的自监督学习框架。 (A) 数据收集阶段:机器人通过与语音相关的随机指令自主生成数据集,利用 RGB 摄像头捕捉广泛的唇部运动,以获取 3D 唇形数据。(B) 部署过程:始于来自 ChatGPT 的文本输入,文本被转换为音频,随后利用 Wav2Lip 技术合成机器人视频。利用真实机器人视频及其对应指令,训练由编码器和解码器(VAE)组成的机器人逆向变换器,以生成平滑、准确、可供真实机器人执行的电机指令。

多语言能力

研究团队测试了机器人在多种语言、不同语音环境甚至歌曲中的表现。结果显示,即使在复杂的语音节奏下,机器人也能完成连贯的唇部同步,甚至演唱来自其 AI 生成的曲目。

      机器人多语言口型对齐能力

图片

图 5. 多语言唇语同步性能量化表现。x 轴标签下方标注的样本量 n 对应每种语言的测试句子视频帧数。结果表明,所有非英语语言的同步误差均保持在英语误差范围内,显示出稳健的跨语言泛化能力。

当然,这还不是终点。研究者坦言,像 “B” 这类需要完全闭唇的音,以及 “W” 这类涉及明显撮唇的发音,仍然存在挑战。但关键在于 —— 这是一种可以随着学习持续进化的能力,而不是写死的规则。

跨越恐怖谷的 “缺失环节”

在研究者看来,面部表情 —— 尤其是唇部的自然运动,正是长期以来机器人能力中的 “缺失环节”。“当前的人形机器人更多关注行走和抓取,但凡是需要与人面对面交流的场景,面部表达同样关键。”

随着人形机器人逐渐进入娱乐、教育、医疗、陪护等高度依赖情感沟通的领域,一张温暖、自然、可信的‘脸’将不再是加分项,而是入场券。经济学家预测,未来十年全球或将制造超过十亿台人形机器人进入人们的生活场景。而几乎可以确定的是 —— 它们不可能都没有脸。

从实验室走向现实

这项封面研究,不仅是一次学术突破,也展示了中国学者在国际人形机器人领域具备独特的创新能力。

第一作者胡宇航博士表示,当唇部同步能力与对话型大模型结合时,机器人与人类之间的连接将发生质变。“我们交流中有大量情感信息并不在语言本身,而在面部和身体语言中。机器人正在开始触碰这条通道。”

当机器人真正学会像人一样 “说话” 和 “表达”,

恐怖谷,正在被一步步填平。

人类与机器人的信任和情感,将会迎来新的篇章。

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

0%
icon展开列表
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
今天
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
今天
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
今天
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
01月13日
img
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
01月13日
img
一个模型统一4D世界生成与重建,港科大One4D框架来了
01月13日
img
端到端智驾的算力困局,九章智算云这样破局
01月12日
img
真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线
01月12日
img
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
01月12日
img
清华等团队用AI驱动百万倍速药物筛选,一天内十万亿次扫描的超高速虚拟平台
01月12日
img
2026年,大模型训练的下半场属于「强化学习云」
01月12日
img
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤
01月12日
img
AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房
01月12日
img
被Jim Fan点赞!全球第一的千寻智能Spirit v1.5正式开源!
01月12日
img

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

还记得那个穿着「Lululemon」紧身衣、主打温柔陪伴的家用人形机器人 NEO 吗?

图片

上次聊到它时,大家还在吐槽其「远程操控」的隐私安全问题,调侃每个机器人的背后可能都是一个「印度小哥」。

昨天,1X 公司带着它的全新「大脑」亮相:1X World Model。这一次,NEO 似乎准备把「背后的操作员」给解放了。

简单来说,现在的 NEO 不再只是死记硬背动作,它学会了像人一样「想象」。通过观看海量的网络视频和人类第一视角的实操录像,它理解了物理世界是如何运作的:东西掉了会下落,门是可以推开的。

他们把类似 Sora 的视频生成技术装进了 NEO 的脑子里,接到指令时,它会先在脑海里生成一段「自己成功完成任务」的视频,然后倒推身体该怎么动,才能把这段想象变成现实。

不过,官方博客中也表示,有时候会出现「脑子学会了,手没学会」的情况:脑补出的视频很完美,但实际动作可能会抓空。

图片

那么这一次是「瑜伽服」下的真功夫,还是只存在于 Demo 里的「剪辑魔法」呢?不管技术落没落地,热度已经先爆表了。到截稿时间,官方推文浏览量已突破 500 万。

图片

看来,在经历了 AI 时代各式各样炫酷 Demo 的轮番轰炸之后,大家还是忍不住想看看:这一回,它是真长脑子了吗?

以下是 1X 技术团队对这颗「新大脑」的硬核拆解:

图片

家庭机器人要真正走进现实环境,必须具备常识性的行为能力以及对物理世界的深刻理解。

当前许多机器人基础模型采用的是 VLA 范式:即在一个预训练的 VLM 之上,增加一个用于预测机器人动作的输出头(例如 PI0.6、Helix、Groot N1.5)。VLM 能够从互联网规模的数据中学习到丰富的知识,但其训练目标更侧重于视觉与语义理解,而非对物理动态过程的预测。

因此,即便是对人类而言非常简单的任务,模型往往也需要数万小时、成本高昂的机器人数据才能学会完成。此外,为了进一步强化模型对物理交互中空间关系的理解,研究者通常还需要引入各种辅助训练目标(如 MolmoAct、Gemini-Robotics 1.5)。

在这篇博客中,1X 介绍了基于视频预训练的世界模型——1XWM,并将其集成进 NEO 机器人作为其控制策略。

与 VLA 模型直接从静态的图像-语言输入中预测动作轨迹不同,世界模型驱动策略是通过文本条件下的视频生成来推导机器人应采取的动作。借助互联网规模视频中蕴含的真实世界动力学规律,该世界模型能够在无需大规模机器人数据预训练、也不依赖任何相关的遥操作演示的情况下,即可泛化到全新的物体、运动方式和任务场景。

这标志着机器人智能范式的一次转变:机器人开始直接受益于视频预训练规模化带来的能力跃迁,而这一切得以实现,离不开一整套为高保真人类具身到机器人具身迁移而设计的硬件系统支持。

图片

从视频知识到世界模型

如今,诸如 Veo 和 Sora 等前沿文生视频模型已经能够生成极其逼真的视频内容。然而,这些模型在零样本生成场景下并未与机器人具身形态对齐,因而在控制任务所需的多个关键维度上往往存在不足,表现在以下几个方面:

  • 视觉/空间层面:生成的视频是否与机器人的相机内参和自我中心视角一致?是否能够准确保留操控任务所需的深度信息以及精确的空间关系?

  • 运动学层面:生成视频中的机器人动作是否在该具身形态下可实现,是否遵循其结构特性、关节极限、速度约束以及执行器能力?

  • 物理层面:生成过程是否避免了物理上不可能的结果(例如物体瞬移),从而保证其能够转化为现实世界中的成功执行?

原始视频能够提供看起来会发生什么,但并未给出如何去做。为了将视频知识转化为真正可用于控制的世界模型,1X 借助自身的端到端系统架构,采用了一种两阶段的对齐过程,思路与 DreamGen、UniPi 等已有工作一脉相承:

  • 世界模型主干:这是一个文本条件扩散模型:先在互联网规模的视频数据上进行预训练,随后在人类第一视角视频数据上进行中期训练,并最终在 NEO 专属的传感器-运动日志上进行微调。该模型能够高保真地预测场景随时间演化的过程,在视觉、空间和物理一致性方面表现出色。

  • 逆动力学模型(Inverse Dynamics Model, IDM):通过训练 IDM,将像素空间与执行器控制连接起来,使其能够预测在生成帧之间完成状态转移所需的精确动作序列。同时利用 IDM 的评估指标和拒绝采样机制,对生成结果施加运动学约束,从而确保动作在具身层面上的可行性。

在推理阶段,系统接收一个文本指令和一帧初始画面:世界模型负责生成符合意图的未来场景演化,逆动力学模型从中提取所需的动作轨迹,最终由机器人在现实世界中执行该动作序列。

图片

1XWM 的训练与推理流程

1XWM 的主干模型基于一个 140 亿参数的生成式视频模型。为了使该模型适配 NEO 的具身形态,1X 还采用了一种多阶段训练策略:

  • 第一视角中期训练:使用 900 小时的人类第一视角视频数据进行训练,使模型对第一人称的操作任务产生对齐。在这一阶段,模型能够学习到通用的操作行为模式,但仍然难以生成由 NEO 执行具体任务的视频。

  • 具身微调:随后,使用 70 小时的机器人数据进行微调,使模型进一步适配 NEO 的视觉外观与运动学特性。

以 DALL·E 3 等工作为例,已有研究表明,通过使用更具描述性的视觉文本标注进行训练,可以显著提升视觉基础模型对提示词的遵循能力。然而,许多第一视角数据集仅包含简要的任务描述。为此,1X 利用一个 VLM 生成更加详细的描述性字幕,并通过字幕上采样的方式将其用于训练。

此外,IDM 在 400 小时未经过滤的机器人数据上进行训练,其中既包括随机探索数据,也包含与任何具体任务无关的运动轨迹。这使得模型能够在任意状态下对 NEO 的运动进行准确追踪。

在测试阶段,系统接收一帧初始画面以及一条指导 NEO 执行动作的文本指令。1XWM 负责生成未来的视频序列,随后由 IDM 从生成视频中提取对应的机器人动作轨迹,并将其直接下发至机器人执行。为保证轨迹的平滑性,IDM 的输出会在多个初始噪声样本和滑动窗口维度上进行时间平均处理。

图片

NEO 后训练数据集主要包含高质量的抓取和放置数据(98.5%),这些数据经过筛选,仅包含桌面操作且手部可见的场景。通过利用基础视频模型的网络级预训练,1XWM 模型可以泛化到各种未曾见过的物体、环境和任务。

1XWM 到底能做啥

研究团队进一步评估了 1XWM 在任务泛化方面的能力,重点关注其是否能够完成 NEO 从未经历过的任务,以及生成视频与真实机器人执行之间的一致性程度。

在实验中,搭载 1XWM 的 NEO 被用于执行多种超出既有经验的任务,包括:

  • 抓取分布内与分布外的物体;

  • 操作此前从未见过、但具备复杂可供性的物体;

  • 完成需要全新动作模式的全新任务。

实验结果显示,1XWM 生成的视频与真实世界中的执行过程整体高度一致。将模型生成的视频与机器人实际完成任务后拍摄的视频进行并排对比,可以发现二者在视觉表现上非常接近。这表明,1XWM 在空间结构理解、运动学约束建模以及物理一致性等方面已经具备较强能力。

抓取:

图片

新动作:清洁

图片

接下来,1X 尝试需要双手协调和人机交互的任务。这些能力并未包含在训练数据集中。这表明此类知识来源于视频预训练和以第一人称视角进行的人机交互训练。由于 NEO 的身体结构与人类非常相似,因此从人类视频数据中学习到的功能可以直接迁移应用。

图片
图片

研究团队还通过系统性的实物实验评估了 1XWM 在分布内(ID)与分布外(OOD)任务上的表现。每类任务均重复执行 30 次。结果显示,1XWM 在多种动作原语上都保持了稳定的成功率,不过部分对精细操作要求较高的任务(例如倒液体、绘图等)仍然具有一定挑战性。

图片

能否将视频质量与任务成功率联系起来?

如果可以,就能使用视觉指标来衡量和改进视频质量,并估计实际任务成功的可能性。

有时,生成的视频是否可能成功一目了然。例如,向 1XWM 模型输入拉取纸巾指令,有时会生成 NEO 机器人拿起纸巾盒而不是拉取纸巾的视频。执行这些错误生成的视频时,成功率几乎为 0%。

1X 团队注意到像测试时计算这样的方法可以提高任务成功率。受此启发,他们尝试并行生成多个视频,并执行其中质量最好的一个。这个选择过程可以手动完成,但也可以使用 VLM 评估器进行自动化。

图片

第一视角数据与高质量字幕的重要性

基于此前假设:生成视频的质量与任务成功率之间存在相关性,研究团队对若干训练选择进行了视觉层面的消融分析,重点考察了字幕上采样以及第一视角人类数据训练这两项因素的影响。

实验共使用了三个评测数据集,每个数据集均包含 500 组起始图像–提示词对:

  • 分布内数据集:包含与机器人训练数据分布一致的复杂任务和场景,主要是杂乱环境中、物体位置较为困难的抓取与放置任务。

  • 新任务数据集:由一组全新的任务构成,例如搅拌碗、抽纸、相对尺寸判断(选择更大的物体)、双手协同操作等,数据采集于真实世界中的简单背景场景。

  • 分布外 T2I(OOD T2I)数据集:完全由抓取任务组成,其初始帧由文生图模型生成,随机采样分布外的家庭物体与背景场景。

下面是新任务数据示例:

图片

团队还要求人工标注员审查每个生成的视频,并根据物理合理性、任务完成情况以及与 NEO 的形态和能力的一致性来决定接受或拒绝该视频。

图片

字幕上采样在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与视频模型预训练时的文本条件更加匹配,也能更清晰地引导具体动作生成。

引入第一视角人类数据则显著提升了新任务和分布外场景下的生成质量,说明这类数据为操作任务提供了可迁移的通用先验,且与 NEO 的类人具身高度契合。

不过,在已有大量 NEO 数据覆盖的分布内任务上,额外加入第一视角数据可能会稀释后训练数据分布,对效果提升有限,甚至略有负面影响。

图片

参考链接:https://www.1x.tech/discover/world-model-self-learning

模力工场新鲜事

  • 模力工场将亮相 OceanBase 社区嘉年华!诚邀您加入我们的上海现场展位。作为 OceanBase 合作的创新社区,模力工场将于 1 月 31 日 登陆上海社区嘉年华,并拥有专属展位。这不仅是一次技术交流——我们更希望和您一起,在现场用 AI Coding 展现创造力、在开放麦分享您的项目故事、与行业先锋面对面切磋、在开源市集交换灵感。我们为您预留了专属席位,期待与您共同呈现:当开源精神遇上 AI 创造力,能碰撞出多少令人惊艳的可能。立即报名,锁定与数百位技术同行深度连接的一天!

028 周榜单总介绍

模力工场第 028 周 AI 应用榜来啦!本周上榜的应用大多来自美国 CES 展及阿里云通义智能硬件展,从优必选的集群物流调度系统到银河通用的零样本抓取机器人,从众擎的拟人步态双足机器人到 Walulu 的情感陪伴毛绒玩具——这些应用共同见证了一场时代风暴:AI 硬件正在集体跨越“工具”属性,进化为真正的“智能体”。它们不再是被动响应指令的机械装置,而是具备了理解环境、自主规划、闭环执行乃至情感交互能力的“数字生命体”。这场从“功能叠加”到“语音助手”再到“智能体化”的范式革命,正同时重塑生产力与生产关系:在工业场景成为可靠的“数字员工”,在消费领域则成为可建立羁绊的“数字伙伴”,标志着人机协同进入了全新的历史阶段。

  • OiiOii: 一款面向创作者与普通用户的 AI 互动式内容生成应用,通过自然语言或轻量交互,快速生成有趣、可分享的内容。

  • 云深处巡检机器人: 专注于工业复杂环境的自主巡检解决方案。其四足机器人具备强运动与感知能力,可在无网络支持下独立完成巡检任务并安全返回,已在电力、能源等领域实现落地应用。

  • 优必选(UBTECH)搬运/物流机器人: 提供从智能搬运机器人到集群调度系统的软硬件一体化智慧物流方案,帮助企业实现仓储搬运环节的自动化升级与效率提升。

  • 众擎机器人: 聚焦高动态双足人形机器人的研发,致力于突破拟人步态与平衡控制技术,为未来机器人在人类环境中的通用移动能力提供底层支撑。

  • walulu 📍成都: 一款具备情感交互与离线记忆能力的 AI 智能毛绒玩具,通过多模态交互设计,为用户提供个性化、可长期互动的陪伴体验。

  • 银河通用机器人: 研发面向仓储、零售等场景的通用移动操作机器人,具备视觉识别与自主抓取能力,可在动态环境中完成物品拣选、搬运等任务。

  • 千寻智能Spirit AI: 从事通用人形机器人系统研发,整合高性能硬件平台与 AI 算法栈,探索机器人在多场景下的感知、决策与执行能力。

本周必试应用

应用名称:OiiOii

关键词:全流程托管|零门槛动画|AI 协同创作

模力小 A 推荐:通过七个 AI 智能体(导演、编剧、美术等)分工协作,将你的文字想法自动转化为包含分镜、角色与场景的动画视频,大幅降低了专业动画内容的制作门槛。

上榜冷门但有趣的应用

应用名称:walulu

关键词:AI 硬件|可成长陪伴|离线记忆

模力小 A 推荐:一款结合了情感计算模型的智能玩具。它能够记住与你的互动,并做出个性化的反应,提供一种注重私密性与持续性的陪伴体验。

本周上榜应用趋势解读

AI 正在从虚拟世界走向物理世界,为自己寻找真实的“身体”。本周模力工场榜单上的应用清晰地展示了这一趋势——AI 不再是停留在软件层面的算法,更是成为驱动各类硬件的“大脑”。这次上榜的八大应用,集中体现了 AI 硬件在两大关键赛道的爆发:工业效率革命与情感陪伴需求。

在工业领域,AI 机器人正从简单的机械臂进化为真正的“智能员工”。云深处的巡检机器狗能够在无网络环境的复杂场景中自主完成巡检任务,实现了从“自动化”到“自主化”的跨越;优必选的智慧物流方案已超越单台设备,提供机器人群调度与仓储管理系统深度集成的整套解决方案;银河通用的物流机器人则实现了“零样本抓取”能力,即使面对全新商品也能准确识别搬运。这些进展表明,工业机器人正从实验室原型走向工程化落地,其核心价值在于可量化的投资回报。

在消费领域,情感陪伴型机器人正开辟全新市场。Walulu 的 AI 毛绒宠物通过情感模型与离线记忆技术,创造出能随互动成长的“伙伴关系”,本质是在贩卖情感价值而非功能价值。这反映了 AI 正从解决效率问题,转向满足更深层的心理需求。未来,能否建立稳定、专属的“数字亲密关系”,或将成为此类产品发展的关键。

特别值得关注的是众擎的人形机器人——虽然步态尚显蹒跚,但其对双足行走、自然步态的追求,瞄准的是机器人无缝进入人类环境的终极目标。这种对“通用形态”的前瞻布局,代表着产业在为更广阔的未来场景做技术储备。

除了实体硬件产品,OiiOii 这款 AI 动画创作应用近期也备受瞩目。其“全流程托管模式”尤为亮眼——平台将传统动画制作中的艺术总监、编剧、分镜师、角色设计师、场景设计师、动画师、音效总监等七个核心角色,分别由七个 AI 智能体担任。这些智能体不仅形象亲切可爱,更如导师般指引用户一步步完成创作。用户只需输入创意想法,并在关键节点进行确认,即可产出完整动画作品。这极大降低了创作门槛,让普通用户也能轻松上手动画制作。

综上,AI 硬件已越过“加个语音模块”的简单升级阶段,进入以智能体化为特征的第三阶段。产业不再满足于制造“能联网的工具”,而是致力于创造“能自主行动的数字生命体”。从工业现场到家庭空间,AI 正在改写生产力与生产关系的定义——在工厂成为可靠的数字员工,在生活场景成为温暖的数字伙伴。当 AI 真正获得在物理世界中感知、决策和执行的能力,人机协同或将进入一个前所未有的新纪元。

模力工场新鲜事

  • 模力工场将亮相 OceanBase 社区嘉年华!诚邀您加入我们的上海现场展位。作为 OceanBase 合作的创新社区,模力工场将于 1 月 31 日 登陆上海社区嘉年华,并拥有专属展位。这不仅是一次技术交流——我们更希望和您一起,在现场用 AI Coding 展现创造力、在开放麦分享您的项目故事、与行业先锋面对面切磋、在开源市集交换灵感。我们为您预留了专属席位,期待与您共同呈现:当开源精神遇上 AI 创造力,能碰撞出多少令人惊艳的可能。立即报名,锁定与数百位技术同行深度连接的一天!

028 周榜单总介绍

模力工场第 028 周 AI 应用榜来啦!本周上榜的应用大多来自美国 CES 展及阿里云通义智能硬件展,从优必选的集群物流调度系统到银河通用的零样本抓取机器人,从众擎的拟人步态双足机器人到 Walulu 的情感陪伴毛绒玩具——这些应用共同见证了一场时代风暴:AI 硬件正在集体跨越“工具”属性,进化为真正的“智能体”。它们不再是被动响应指令的机械装置,而是具备了理解环境、自主规划、闭环执行乃至情感交互能力的“数字生命体”。这场从“功能叠加”到“语音助手”再到“智能体化”的范式革命,正同时重塑生产力与生产关系:在工业场景成为可靠的“数字员工”,在消费领域则成为可建立羁绊的“数字伙伴”,标志着人机协同进入了全新的历史阶段。

  • OiiOii: 一款面向创作者与普通用户的 AI 互动式内容生成应用,通过自然语言或轻量交互,快速生成有趣、可分享的内容。

  • 云深处巡检机器人: 专注于工业复杂环境的自主巡检解决方案。其四足机器人具备强运动与感知能力,可在无网络支持下独立完成巡检任务并安全返回,已在电力、能源等领域实现落地应用。

  • 优必选(UBTECH)搬运/物流机器人: 提供从智能搬运机器人到集群调度系统的软硬件一体化智慧物流方案,帮助企业实现仓储搬运环节的自动化升级与效率提升。

  • 众擎机器人: 聚焦高动态双足人形机器人的研发,致力于突破拟人步态与平衡控制技术,为未来机器人在人类环境中的通用移动能力提供底层支撑。

  • walulu 📍成都: 一款具备情感交互与离线记忆能力的 AI 智能毛绒玩具,通过多模态交互设计,为用户提供个性化、可长期互动的陪伴体验。

  • 银河通用机器人: 研发面向仓储、零售等场景的通用移动操作机器人,具备视觉识别与自主抓取能力,可在动态环境中完成物品拣选、搬运等任务。

  • 千寻智能Spirit AI: 从事通用人形机器人系统研发,整合高性能硬件平台与 AI 算法栈,探索机器人在多场景下的感知、决策与执行能力。

本周必试应用

应用名称:OiiOii

关键词:全流程托管|零门槛动画|AI 协同创作

模力小 A 推荐:通过七个 AI 智能体(导演、编剧、美术等)分工协作,将你的文字想法自动转化为包含分镜、角色与场景的动画视频,大幅降低了专业动画内容的制作门槛。

上榜冷门但有趣的应用

应用名称:walulu

关键词:AI 硬件|可成长陪伴|离线记忆

模力小 A 推荐:一款结合了情感计算模型的智能玩具。它能够记住与你的互动,并做出个性化的反应,提供一种注重私密性与持续性的陪伴体验。

本周上榜应用趋势解读

AI 正在从虚拟世界走向物理世界,为自己寻找真实的“身体”。本周模力工场榜单上的应用清晰地展示了这一趋势——AI 不再是停留在软件层面的算法,更是成为驱动各类硬件的“大脑”。这次上榜的八大应用,集中体现了 AI 硬件在两大关键赛道的爆发:工业效率革命与情感陪伴需求。

在工业领域,AI 机器人正从简单的机械臂进化为真正的“智能员工”。云深处的巡检机器狗能够在无网络环境的复杂场景中自主完成巡检任务,实现了从“自动化”到“自主化”的跨越;优必选的智慧物流方案已超越单台设备,提供机器人群调度与仓储管理系统深度集成的整套解决方案;银河通用的物流机器人则实现了“零样本抓取”能力,即使面对全新商品也能准确识别搬运。这些进展表明,工业机器人正从实验室原型走向工程化落地,其核心价值在于可量化的投资回报。

在消费领域,情感陪伴型机器人正开辟全新市场。Walulu 的 AI 毛绒宠物通过情感模型与离线记忆技术,创造出能随互动成长的“伙伴关系”,本质是在贩卖情感价值而非功能价值。这反映了 AI 正从解决效率问题,转向满足更深层的心理需求。未来,能否建立稳定、专属的“数字亲密关系”,或将成为此类产品发展的关键。

特别值得关注的是众擎的人形机器人——虽然步态尚显蹒跚,但其对双足行走、自然步态的追求,瞄准的是机器人无缝进入人类环境的终极目标。这种对“通用形态”的前瞻布局,代表着产业在为更广阔的未来场景做技术储备。

除了实体硬件产品,OiiOii 这款 AI 动画创作应用近期也备受瞩目。其“全流程托管模式”尤为亮眼——平台将传统动画制作中的艺术总监、编剧、分镜师、角色设计师、场景设计师、动画师、音效总监等七个核心角色,分别由七个 AI 智能体担任。这些智能体不仅形象亲切可爱,更如导师般指引用户一步步完成创作。用户只需输入创意想法,并在关键节点进行确认,即可产出完整动画作品。这极大降低了创作门槛,让普通用户也能轻松上手动画制作。

综上,AI 硬件已越过“加个语音模块”的简单升级阶段,进入以智能体化为特征的第三阶段。产业不再满足于制造“能联网的工具”,而是致力于创造“能自主行动的数字生命体”。从工业现场到家庭空间,AI 正在改写生产力与生产关系的定义——在工厂成为可靠的数字员工,在生活场景成为温暖的数字伙伴。当 AI 真正获得在物理世界中感知、决策和执行的能力,人机协同或将进入一个前所未有的新纪元。