标签 机器人 下的文章

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

0%
icon展开列表
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
今天
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
今天
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
今天
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
01月13日
img
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
01月13日
img
一个模型统一4D世界生成与重建,港科大One4D框架来了
01月13日
img
端到端智驾的算力困局,九章智算云这样破局
01月12日
img
真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线
01月12日
img
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
01月12日
img
清华等团队用AI驱动百万倍速药物筛选,一天内十万亿次扫描的超高速虚拟平台
01月12日
img
2026年,大模型训练的下半场属于「强化学习云」
01月12日
img
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤
01月12日
img
AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房
01月12日
img
被Jim Fan点赞!全球第一的千寻智能Spirit v1.5正式开源!
01月12日
img

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

还记得那个穿着「Lululemon」紧身衣、主打温柔陪伴的家用人形机器人 NEO 吗?

图片

上次聊到它时,大家还在吐槽其「远程操控」的隐私安全问题,调侃每个机器人的背后可能都是一个「印度小哥」。

昨天,1X 公司带着它的全新「大脑」亮相:1X World Model。这一次,NEO 似乎准备把「背后的操作员」给解放了。

简单来说,现在的 NEO 不再只是死记硬背动作,它学会了像人一样「想象」。通过观看海量的网络视频和人类第一视角的实操录像,它理解了物理世界是如何运作的:东西掉了会下落,门是可以推开的。

他们把类似 Sora 的视频生成技术装进了 NEO 的脑子里,接到指令时,它会先在脑海里生成一段「自己成功完成任务」的视频,然后倒推身体该怎么动,才能把这段想象变成现实。

不过,官方博客中也表示,有时候会出现「脑子学会了,手没学会」的情况:脑补出的视频很完美,但实际动作可能会抓空。

图片

那么这一次是「瑜伽服」下的真功夫,还是只存在于 Demo 里的「剪辑魔法」呢?不管技术落没落地,热度已经先爆表了。到截稿时间,官方推文浏览量已突破 500 万。

图片

看来,在经历了 AI 时代各式各样炫酷 Demo 的轮番轰炸之后,大家还是忍不住想看看:这一回,它是真长脑子了吗?

以下是 1X 技术团队对这颗「新大脑」的硬核拆解:

图片

家庭机器人要真正走进现实环境,必须具备常识性的行为能力以及对物理世界的深刻理解。

当前许多机器人基础模型采用的是 VLA 范式:即在一个预训练的 VLM 之上,增加一个用于预测机器人动作的输出头(例如 PI0.6、Helix、Groot N1.5)。VLM 能够从互联网规模的数据中学习到丰富的知识,但其训练目标更侧重于视觉与语义理解,而非对物理动态过程的预测。

因此,即便是对人类而言非常简单的任务,模型往往也需要数万小时、成本高昂的机器人数据才能学会完成。此外,为了进一步强化模型对物理交互中空间关系的理解,研究者通常还需要引入各种辅助训练目标(如 MolmoAct、Gemini-Robotics 1.5)。

在这篇博客中,1X 介绍了基于视频预训练的世界模型——1XWM,并将其集成进 NEO 机器人作为其控制策略。

与 VLA 模型直接从静态的图像-语言输入中预测动作轨迹不同,世界模型驱动策略是通过文本条件下的视频生成来推导机器人应采取的动作。借助互联网规模视频中蕴含的真实世界动力学规律,该世界模型能够在无需大规模机器人数据预训练、也不依赖任何相关的遥操作演示的情况下,即可泛化到全新的物体、运动方式和任务场景。

这标志着机器人智能范式的一次转变:机器人开始直接受益于视频预训练规模化带来的能力跃迁,而这一切得以实现,离不开一整套为高保真人类具身到机器人具身迁移而设计的硬件系统支持。

图片

从视频知识到世界模型

如今,诸如 Veo 和 Sora 等前沿文生视频模型已经能够生成极其逼真的视频内容。然而,这些模型在零样本生成场景下并未与机器人具身形态对齐,因而在控制任务所需的多个关键维度上往往存在不足,表现在以下几个方面:

  • 视觉/空间层面:生成的视频是否与机器人的相机内参和自我中心视角一致?是否能够准确保留操控任务所需的深度信息以及精确的空间关系?

  • 运动学层面:生成视频中的机器人动作是否在该具身形态下可实现,是否遵循其结构特性、关节极限、速度约束以及执行器能力?

  • 物理层面:生成过程是否避免了物理上不可能的结果(例如物体瞬移),从而保证其能够转化为现实世界中的成功执行?

原始视频能够提供看起来会发生什么,但并未给出如何去做。为了将视频知识转化为真正可用于控制的世界模型,1X 借助自身的端到端系统架构,采用了一种两阶段的对齐过程,思路与 DreamGen、UniPi 等已有工作一脉相承:

  • 世界模型主干:这是一个文本条件扩散模型:先在互联网规模的视频数据上进行预训练,随后在人类第一视角视频数据上进行中期训练,并最终在 NEO 专属的传感器-运动日志上进行微调。该模型能够高保真地预测场景随时间演化的过程,在视觉、空间和物理一致性方面表现出色。

  • 逆动力学模型(Inverse Dynamics Model, IDM):通过训练 IDM,将像素空间与执行器控制连接起来,使其能够预测在生成帧之间完成状态转移所需的精确动作序列。同时利用 IDM 的评估指标和拒绝采样机制,对生成结果施加运动学约束,从而确保动作在具身层面上的可行性。

在推理阶段,系统接收一个文本指令和一帧初始画面:世界模型负责生成符合意图的未来场景演化,逆动力学模型从中提取所需的动作轨迹,最终由机器人在现实世界中执行该动作序列。

图片

1XWM 的训练与推理流程

1XWM 的主干模型基于一个 140 亿参数的生成式视频模型。为了使该模型适配 NEO 的具身形态,1X 还采用了一种多阶段训练策略:

  • 第一视角中期训练:使用 900 小时的人类第一视角视频数据进行训练,使模型对第一人称的操作任务产生对齐。在这一阶段,模型能够学习到通用的操作行为模式,但仍然难以生成由 NEO 执行具体任务的视频。

  • 具身微调:随后,使用 70 小时的机器人数据进行微调,使模型进一步适配 NEO 的视觉外观与运动学特性。

以 DALL·E 3 等工作为例,已有研究表明,通过使用更具描述性的视觉文本标注进行训练,可以显著提升视觉基础模型对提示词的遵循能力。然而,许多第一视角数据集仅包含简要的任务描述。为此,1X 利用一个 VLM 生成更加详细的描述性字幕,并通过字幕上采样的方式将其用于训练。

此外,IDM 在 400 小时未经过滤的机器人数据上进行训练,其中既包括随机探索数据,也包含与任何具体任务无关的运动轨迹。这使得模型能够在任意状态下对 NEO 的运动进行准确追踪。

在测试阶段,系统接收一帧初始画面以及一条指导 NEO 执行动作的文本指令。1XWM 负责生成未来的视频序列,随后由 IDM 从生成视频中提取对应的机器人动作轨迹,并将其直接下发至机器人执行。为保证轨迹的平滑性,IDM 的输出会在多个初始噪声样本和滑动窗口维度上进行时间平均处理。

图片

NEO 后训练数据集主要包含高质量的抓取和放置数据(98.5%),这些数据经过筛选,仅包含桌面操作且手部可见的场景。通过利用基础视频模型的网络级预训练,1XWM 模型可以泛化到各种未曾见过的物体、环境和任务。

1XWM 到底能做啥

研究团队进一步评估了 1XWM 在任务泛化方面的能力,重点关注其是否能够完成 NEO 从未经历过的任务,以及生成视频与真实机器人执行之间的一致性程度。

在实验中,搭载 1XWM 的 NEO 被用于执行多种超出既有经验的任务,包括:

  • 抓取分布内与分布外的物体;

  • 操作此前从未见过、但具备复杂可供性的物体;

  • 完成需要全新动作模式的全新任务。

实验结果显示,1XWM 生成的视频与真实世界中的执行过程整体高度一致。将模型生成的视频与机器人实际完成任务后拍摄的视频进行并排对比,可以发现二者在视觉表现上非常接近。这表明,1XWM 在空间结构理解、运动学约束建模以及物理一致性等方面已经具备较强能力。

抓取:

图片

新动作:清洁

图片

接下来,1X 尝试需要双手协调和人机交互的任务。这些能力并未包含在训练数据集中。这表明此类知识来源于视频预训练和以第一人称视角进行的人机交互训练。由于 NEO 的身体结构与人类非常相似,因此从人类视频数据中学习到的功能可以直接迁移应用。

图片
图片

研究团队还通过系统性的实物实验评估了 1XWM 在分布内(ID)与分布外(OOD)任务上的表现。每类任务均重复执行 30 次。结果显示,1XWM 在多种动作原语上都保持了稳定的成功率,不过部分对精细操作要求较高的任务(例如倒液体、绘图等)仍然具有一定挑战性。

图片

能否将视频质量与任务成功率联系起来?

如果可以,就能使用视觉指标来衡量和改进视频质量,并估计实际任务成功的可能性。

有时,生成的视频是否可能成功一目了然。例如,向 1XWM 模型输入拉取纸巾指令,有时会生成 NEO 机器人拿起纸巾盒而不是拉取纸巾的视频。执行这些错误生成的视频时,成功率几乎为 0%。

1X 团队注意到像测试时计算这样的方法可以提高任务成功率。受此启发,他们尝试并行生成多个视频,并执行其中质量最好的一个。这个选择过程可以手动完成,但也可以使用 VLM 评估器进行自动化。

图片

第一视角数据与高质量字幕的重要性

基于此前假设:生成视频的质量与任务成功率之间存在相关性,研究团队对若干训练选择进行了视觉层面的消融分析,重点考察了字幕上采样以及第一视角人类数据训练这两项因素的影响。

实验共使用了三个评测数据集,每个数据集均包含 500 组起始图像–提示词对:

  • 分布内数据集:包含与机器人训练数据分布一致的复杂任务和场景,主要是杂乱环境中、物体位置较为困难的抓取与放置任务。

  • 新任务数据集:由一组全新的任务构成,例如搅拌碗、抽纸、相对尺寸判断(选择更大的物体)、双手协同操作等,数据采集于真实世界中的简单背景场景。

  • 分布外 T2I(OOD T2I)数据集:完全由抓取任务组成,其初始帧由文生图模型生成,随机采样分布外的家庭物体与背景场景。

下面是新任务数据示例:

图片

团队还要求人工标注员审查每个生成的视频,并根据物理合理性、任务完成情况以及与 NEO 的形态和能力的一致性来决定接受或拒绝该视频。

图片

字幕上采样在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与视频模型预训练时的文本条件更加匹配,也能更清晰地引导具体动作生成。

引入第一视角人类数据则显著提升了新任务和分布外场景下的生成质量,说明这类数据为操作任务提供了可迁移的通用先验,且与 NEO 的类人具身高度契合。

不过,在已有大量 NEO 数据覆盖的分布内任务上,额外加入第一视角数据可能会稀释后训练数据分布,对效果提升有限,甚至略有负面影响。

图片

参考链接:https://www.1x.tech/discover/world-model-self-learning

模力工场新鲜事

  • 模力工场将亮相 OceanBase 社区嘉年华!诚邀您加入我们的上海现场展位。作为 OceanBase 合作的创新社区,模力工场将于 1 月 31 日 登陆上海社区嘉年华,并拥有专属展位。这不仅是一次技术交流——我们更希望和您一起,在现场用 AI Coding 展现创造力、在开放麦分享您的项目故事、与行业先锋面对面切磋、在开源市集交换灵感。我们为您预留了专属席位,期待与您共同呈现:当开源精神遇上 AI 创造力,能碰撞出多少令人惊艳的可能。立即报名,锁定与数百位技术同行深度连接的一天!

028 周榜单总介绍

模力工场第 028 周 AI 应用榜来啦!本周上榜的应用大多来自美国 CES 展及阿里云通义智能硬件展,从优必选的集群物流调度系统到银河通用的零样本抓取机器人,从众擎的拟人步态双足机器人到 Walulu 的情感陪伴毛绒玩具——这些应用共同见证了一场时代风暴:AI 硬件正在集体跨越“工具”属性,进化为真正的“智能体”。它们不再是被动响应指令的机械装置,而是具备了理解环境、自主规划、闭环执行乃至情感交互能力的“数字生命体”。这场从“功能叠加”到“语音助手”再到“智能体化”的范式革命,正同时重塑生产力与生产关系:在工业场景成为可靠的“数字员工”,在消费领域则成为可建立羁绊的“数字伙伴”,标志着人机协同进入了全新的历史阶段。

  • OiiOii: 一款面向创作者与普通用户的 AI 互动式内容生成应用,通过自然语言或轻量交互,快速生成有趣、可分享的内容。

  • 云深处巡检机器人: 专注于工业复杂环境的自主巡检解决方案。其四足机器人具备强运动与感知能力,可在无网络支持下独立完成巡检任务并安全返回,已在电力、能源等领域实现落地应用。

  • 优必选(UBTECH)搬运/物流机器人: 提供从智能搬运机器人到集群调度系统的软硬件一体化智慧物流方案,帮助企业实现仓储搬运环节的自动化升级与效率提升。

  • 众擎机器人: 聚焦高动态双足人形机器人的研发,致力于突破拟人步态与平衡控制技术,为未来机器人在人类环境中的通用移动能力提供底层支撑。

  • walulu 📍成都: 一款具备情感交互与离线记忆能力的 AI 智能毛绒玩具,通过多模态交互设计,为用户提供个性化、可长期互动的陪伴体验。

  • 银河通用机器人: 研发面向仓储、零售等场景的通用移动操作机器人,具备视觉识别与自主抓取能力,可在动态环境中完成物品拣选、搬运等任务。

  • 千寻智能Spirit AI: 从事通用人形机器人系统研发,整合高性能硬件平台与 AI 算法栈,探索机器人在多场景下的感知、决策与执行能力。

本周必试应用

应用名称:OiiOii

关键词:全流程托管|零门槛动画|AI 协同创作

模力小 A 推荐:通过七个 AI 智能体(导演、编剧、美术等)分工协作,将你的文字想法自动转化为包含分镜、角色与场景的动画视频,大幅降低了专业动画内容的制作门槛。

上榜冷门但有趣的应用

应用名称:walulu

关键词:AI 硬件|可成长陪伴|离线记忆

模力小 A 推荐:一款结合了情感计算模型的智能玩具。它能够记住与你的互动,并做出个性化的反应,提供一种注重私密性与持续性的陪伴体验。

本周上榜应用趋势解读

AI 正在从虚拟世界走向物理世界,为自己寻找真实的“身体”。本周模力工场榜单上的应用清晰地展示了这一趋势——AI 不再是停留在软件层面的算法,更是成为驱动各类硬件的“大脑”。这次上榜的八大应用,集中体现了 AI 硬件在两大关键赛道的爆发:工业效率革命与情感陪伴需求。

在工业领域,AI 机器人正从简单的机械臂进化为真正的“智能员工”。云深处的巡检机器狗能够在无网络环境的复杂场景中自主完成巡检任务,实现了从“自动化”到“自主化”的跨越;优必选的智慧物流方案已超越单台设备,提供机器人群调度与仓储管理系统深度集成的整套解决方案;银河通用的物流机器人则实现了“零样本抓取”能力,即使面对全新商品也能准确识别搬运。这些进展表明,工业机器人正从实验室原型走向工程化落地,其核心价值在于可量化的投资回报。

在消费领域,情感陪伴型机器人正开辟全新市场。Walulu 的 AI 毛绒宠物通过情感模型与离线记忆技术,创造出能随互动成长的“伙伴关系”,本质是在贩卖情感价值而非功能价值。这反映了 AI 正从解决效率问题,转向满足更深层的心理需求。未来,能否建立稳定、专属的“数字亲密关系”,或将成为此类产品发展的关键。

特别值得关注的是众擎的人形机器人——虽然步态尚显蹒跚,但其对双足行走、自然步态的追求,瞄准的是机器人无缝进入人类环境的终极目标。这种对“通用形态”的前瞻布局,代表着产业在为更广阔的未来场景做技术储备。

除了实体硬件产品,OiiOii 这款 AI 动画创作应用近期也备受瞩目。其“全流程托管模式”尤为亮眼——平台将传统动画制作中的艺术总监、编剧、分镜师、角色设计师、场景设计师、动画师、音效总监等七个核心角色,分别由七个 AI 智能体担任。这些智能体不仅形象亲切可爱,更如导师般指引用户一步步完成创作。用户只需输入创意想法,并在关键节点进行确认,即可产出完整动画作品。这极大降低了创作门槛,让普通用户也能轻松上手动画制作。

综上,AI 硬件已越过“加个语音模块”的简单升级阶段,进入以智能体化为特征的第三阶段。产业不再满足于制造“能联网的工具”,而是致力于创造“能自主行动的数字生命体”。从工业现场到家庭空间,AI 正在改写生产力与生产关系的定义——在工厂成为可靠的数字员工,在生活场景成为温暖的数字伙伴。当 AI 真正获得在物理世界中感知、决策和执行的能力,人机协同或将进入一个前所未有的新纪元。

模力工场新鲜事

  • 模力工场将亮相 OceanBase 社区嘉年华!诚邀您加入我们的上海现场展位。作为 OceanBase 合作的创新社区,模力工场将于 1 月 31 日 登陆上海社区嘉年华,并拥有专属展位。这不仅是一次技术交流——我们更希望和您一起,在现场用 AI Coding 展现创造力、在开放麦分享您的项目故事、与行业先锋面对面切磋、在开源市集交换灵感。我们为您预留了专属席位,期待与您共同呈现:当开源精神遇上 AI 创造力,能碰撞出多少令人惊艳的可能。立即报名,锁定与数百位技术同行深度连接的一天!

028 周榜单总介绍

模力工场第 028 周 AI 应用榜来啦!本周上榜的应用大多来自美国 CES 展及阿里云通义智能硬件展,从优必选的集群物流调度系统到银河通用的零样本抓取机器人,从众擎的拟人步态双足机器人到 Walulu 的情感陪伴毛绒玩具——这些应用共同见证了一场时代风暴:AI 硬件正在集体跨越“工具”属性,进化为真正的“智能体”。它们不再是被动响应指令的机械装置,而是具备了理解环境、自主规划、闭环执行乃至情感交互能力的“数字生命体”。这场从“功能叠加”到“语音助手”再到“智能体化”的范式革命,正同时重塑生产力与生产关系:在工业场景成为可靠的“数字员工”,在消费领域则成为可建立羁绊的“数字伙伴”,标志着人机协同进入了全新的历史阶段。

  • OiiOii: 一款面向创作者与普通用户的 AI 互动式内容生成应用,通过自然语言或轻量交互,快速生成有趣、可分享的内容。

  • 云深处巡检机器人: 专注于工业复杂环境的自主巡检解决方案。其四足机器人具备强运动与感知能力,可在无网络支持下独立完成巡检任务并安全返回,已在电力、能源等领域实现落地应用。

  • 优必选(UBTECH)搬运/物流机器人: 提供从智能搬运机器人到集群调度系统的软硬件一体化智慧物流方案,帮助企业实现仓储搬运环节的自动化升级与效率提升。

  • 众擎机器人: 聚焦高动态双足人形机器人的研发,致力于突破拟人步态与平衡控制技术,为未来机器人在人类环境中的通用移动能力提供底层支撑。

  • walulu 📍成都: 一款具备情感交互与离线记忆能力的 AI 智能毛绒玩具,通过多模态交互设计,为用户提供个性化、可长期互动的陪伴体验。

  • 银河通用机器人: 研发面向仓储、零售等场景的通用移动操作机器人,具备视觉识别与自主抓取能力,可在动态环境中完成物品拣选、搬运等任务。

  • 千寻智能Spirit AI: 从事通用人形机器人系统研发,整合高性能硬件平台与 AI 算法栈,探索机器人在多场景下的感知、决策与执行能力。

本周必试应用

应用名称:OiiOii

关键词:全流程托管|零门槛动画|AI 协同创作

模力小 A 推荐:通过七个 AI 智能体(导演、编剧、美术等)分工协作,将你的文字想法自动转化为包含分镜、角色与场景的动画视频,大幅降低了专业动画内容的制作门槛。

上榜冷门但有趣的应用

应用名称:walulu

关键词:AI 硬件|可成长陪伴|离线记忆

模力小 A 推荐:一款结合了情感计算模型的智能玩具。它能够记住与你的互动,并做出个性化的反应,提供一种注重私密性与持续性的陪伴体验。

本周上榜应用趋势解读

AI 正在从虚拟世界走向物理世界,为自己寻找真实的“身体”。本周模力工场榜单上的应用清晰地展示了这一趋势——AI 不再是停留在软件层面的算法,更是成为驱动各类硬件的“大脑”。这次上榜的八大应用,集中体现了 AI 硬件在两大关键赛道的爆发:工业效率革命与情感陪伴需求。

在工业领域,AI 机器人正从简单的机械臂进化为真正的“智能员工”。云深处的巡检机器狗能够在无网络环境的复杂场景中自主完成巡检任务,实现了从“自动化”到“自主化”的跨越;优必选的智慧物流方案已超越单台设备,提供机器人群调度与仓储管理系统深度集成的整套解决方案;银河通用的物流机器人则实现了“零样本抓取”能力,即使面对全新商品也能准确识别搬运。这些进展表明,工业机器人正从实验室原型走向工程化落地,其核心价值在于可量化的投资回报。

在消费领域,情感陪伴型机器人正开辟全新市场。Walulu 的 AI 毛绒宠物通过情感模型与离线记忆技术,创造出能随互动成长的“伙伴关系”,本质是在贩卖情感价值而非功能价值。这反映了 AI 正从解决效率问题,转向满足更深层的心理需求。未来,能否建立稳定、专属的“数字亲密关系”,或将成为此类产品发展的关键。

特别值得关注的是众擎的人形机器人——虽然步态尚显蹒跚,但其对双足行走、自然步态的追求,瞄准的是机器人无缝进入人类环境的终极目标。这种对“通用形态”的前瞻布局,代表着产业在为更广阔的未来场景做技术储备。

除了实体硬件产品,OiiOii 这款 AI 动画创作应用近期也备受瞩目。其“全流程托管模式”尤为亮眼——平台将传统动画制作中的艺术总监、编剧、分镜师、角色设计师、场景设计师、动画师、音效总监等七个核心角色,分别由七个 AI 智能体担任。这些智能体不仅形象亲切可爱,更如导师般指引用户一步步完成创作。用户只需输入创意想法,并在关键节点进行确认,即可产出完整动画作品。这极大降低了创作门槛,让普通用户也能轻松上手动画制作。

综上,AI 硬件已越过“加个语音模块”的简单升级阶段,进入以智能体化为特征的第三阶段。产业不再满足于制造“能联网的工具”,而是致力于创造“能自主行动的数字生命体”。从工业现场到家庭空间,AI 正在改写生产力与生产关系的定义——在工厂成为可靠的数字员工,在生活场景成为温暖的数字伙伴。当 AI 真正获得在物理世界中感知、决策和执行的能力,人机协同或将进入一个前所未有的新纪元。

作者 | 华卫

 

本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

 

我们采访了真机智能董事长兼首席科学家刘智勇,听他讲述了视觉语言导航(VLN)技术的当前难题、具身智能领域在 2025 年的各类进展以及今年在能力边界上的两个突破方向和技术决胜点。他表示,一旦世界模型的因果推理能力取得突破,无论是机器人的安全性还是行为和推理的安全性问题,都能得到很好的解决。

 

“2026 年本体厂商肯定会收缩,估计中国最终只会剩下 5 到 8 家本体机器人公司。”他指出,核心是在某个单一场景实现盈利,不是毛利而是不依赖大量售后成本的净利。但单纯的整机销售并非很好的商业模式,如果只卖硬件,后续的售后压力会非常大,用户一次性付太多钱也承受不了。

 

下面是详细对话内容,以飨读者。

VLN 和世界模型上“大分”

 

Q:2025 年具身智能领域有哪些突破性进展让您印象深刻,包括技术、产业化和生态建设上?这些进展是否已经为具身智能从实验室走向特定场景的“初步普及”奠定了基础?

 

刘智勇:我印象比较深刻的是 VLN 方向的相关进展。过去我们主要是以 SLAM 为核心的技术路线,但从去年到现在,涌现出了大量基于视觉语言作为多模态输入的导航模型。这种视觉语言模型能解决零样本泛化的问题,我们不再需要预先构建地图了。把一个机器人放到任何全新的固定场景里,它都能实现零样本泛化,自主完成导航任务。另外,像 UniNavid、ETPNav、FSR - VLN 这些代表性工作,也让机器人门到门配送的实现出现了曙光和可能性。这就是从几何测量的导航范式,转变到学习增强的导航范式。当前的瓶颈在于未达极高的导航成功率。

 

从场景普及的角度来说,核心是我们不再需要预先建图了。这就意味着,把机器人放在任何新的位置上,它都能立刻开始工作,直接解锁了很多之前无法覆盖的场景。最关键的一点是,零样本能力等同于部署成本的大幅降低。部署成本降下来之后,整个成本结构就能适配场景化的盈利模式,这正是为场景普及奠定的核心基础。技术成熟后,前期的准备和部署工作会大幅减少,这也为未来的产业发展打下了很好的基础。

 

Q:具身智能的核心技术栈正在如何演变?2025 年这一年有哪些值得关注的新范式或共识?

 

刘智勇:从算法角度来看,核心变化是从之前感知、决策、执行分离的多模块化范式,逐渐转向 VLN 或 VLA 的端到端统一范式。从数据角度来说,发展方向是从单纯的真实数据采集,逐步转向合成数据、离线轨迹挖掘以及世界模型这些领域。训练范式也发生了改变,从强化学习调参慢慢转向世界模型驱动。现在世界模型算是行业内解决数据问题的一个共识,原因很简单,不管是在长程层面模拟预测未来状态、在底层层面预测动态物体轨迹,还是弥补数据的 corner case,世界模型都起到了不可或缺的作用。

 

Q:世界模型被寄予厚望,被认为是实现高级推理和规划的关键。现阶段来看,它对机器人实际能力的提升体现在何处?之后还有哪些方面的潜力?

 

刘智勇:现阶段来看,主要体现在三个方面。第一,机器人执行长程任务时容易陷入短视困境,而世界模型可以模拟未来的长程状态,对全局规划能力有非常重要的提升;第二,动态环境下静态地图容易失效,无法准确指引路径轨迹,世界模型能够预测动态物体的轨迹,让机器人的本地行动更安全;第三,世界模型能较好地生成相关数据,减少数据泛化鸿沟。我们认为,世界模型是 VLN 突破长程规划和动态适应瓶颈的充分非必要条件。但现在世界模型的主要问题是黑盒,而非白盒可微。

 

Q:大模型的快速发展,为具身智能的“智能”部分带来了哪些质变?

 

刘智勇:从我们的实践来看,最核心的变化是导航和路径规划的技术范式发生了转变。过去我们采用的是 SLAM 方案,现在则转向了 VLN 范式。过去的 SLAM 方案存在几个明显的局限,一是方案本身不具备语义理解能力,二是依赖静态地图,必须预先建图才能使用,三是需要对特定的传感器做专门标定。而 VLN 范式完全不同,它可以结合语言和视觉实现语义层面的理解,同时能应对非静态环境,实现动态适配。更关键的是,这个方案不再依赖高规格的激光雷达,也不需要预先部署地图,成本和效率都实现了大幅优化。大模型的快速发展,推动技术范式从几何测量的 SLAM 转向学习增强的 VLN,这正是带来质变的核心原因。行动、观测和语言本来属于三个空间,现在要把三个空间统一起来,这也是目前的核心难点。

大规模落地现在卡在哪儿?

Q:几乎所有专家都指出,高质量、大规模的物理交互数据稀缺是当前最大瓶颈。面对真实数据采集成本高昂的困境,仿真合成数据、人类视频数据等替代方案能走多远?“数据工厂”是可行的解决方案吗?

 

刘智勇:我们面临的主要数据瓶颈有两个,一是数据的场景覆盖不足,比如现在常用的数据集大多基于 Mate Port 3D、Habitat、AI2THOR 等 构建,只包含 固定的训练环境,场景覆盖肯定不够;二是做 VLN 的数据采集成本很高,有时需要 3D 数据采集,标注成本也比 2D 图像高出一个量级。对 VLN 来说,现在数据是完全不足的,既存在场景覆盖问题,又有成本高昂的问题。

 

目前,我们在采用多种数据解决方案。第一是采集真实数据,采集 RGBD 视频流,以及数字手套等,再结合人工标注指令,像 Atomic 和一些基准数据集的主要来源就是真机数据。第二是比较常见的用仿真器生成,比如借助模拟器搭载 3D 场景库,批量生成视觉语言轨迹三元组。第三是采用 新范式,不用额外改动 3D 环境,通过改写人类标注数据的方式生成新样本,这是一种静态片段生成的新范式。另外,未来还有一种发展方向是离线数据、离线轨迹挖掘的方式,有点类似实行微克隆。

 

Q:当前的硬件如灵巧手、关节驱动、传感器等,在哪些方面最能满足机器人的技术需求?又在哪些方面构成了发展的主要制约?

 

刘智勇:要讲满足技术需求的地方,我们可以和轮式机器人做个比较。之前的轮式机器人只能移动到楼下,没办法开单元门、摁电梯,只能在楼下送货或者在室内移动。而现在的灵巧手、一体化关节,再加上一些触觉传感器,能让机器人具备开门、按电梯的能力,这是轮式机器人到人形机器人的一个巨大转变。

 

不过目前硬件也存在几方面的制约。第一,我们还需要高分辨率的柔性触觉皮肤。因为机器人需要用机械灵巧手摁电梯,如果触觉不够灵敏,盲按的波动率大,成功率就会比较低。第二,门把手的种类太多了,如果机器人没有触觉反馈,根本没办法应对成千上万种门的情况,也很难实现场景泛化。再就是机器人要进行成千上万次的反复操作,电机、执行器、丝杠这些部件的脆弱性,可能在我们的应用场景中被放大 100 倍。所以从硬件角度来讲,目前主要的制约就是开门要做得好、触觉要做得好这两点。

 

Q:目前为止,制约具身智能大规模落地应用难题还有哪些?

 

刘智勇:对于我们的 VLN 技术来说,主要有两方面的难题。第一是感知决策的延迟问题,这甚至可能是致命的。简单来说,长程规划和行动频率的匹配很关键,如果感知和决策环节出现延迟,机器人在开放环境中运作就会遇到很多麻烦,这就要求必须在端侧做好部署。第二是硬件性能短板,既要让硬件能灵敏地感知外部世界,又要保证它能反复进行操作,而目前这类硬件的耐疲劳性、反脆弱性能还不够强。对于世界模型来说,核心瓶颈是隐式神经表征,而非显式 3D 高斯,可能在开门和按键上缺少精准几何信息。

具身智能该告别 “一锤子买卖”?

Q:面对这样的机遇与挑战,您们在接下来一年的战略重点和核心发力方向是什么?

 

刘智勇:真机智能其实分成了北京真机和苏州真机两个公司。北京真机关注的还是比较传统的 SLAM 加轮式机器人的技术栈和方案,苏州真机则聚焦于 VLN 加人形机器人的技术栈及方案。

 

苏州真机接下来有两个关注重点,第一是通过视觉语言导航的方式,实现无需额外提前部署的门到门配送。过去部署成本太高了,大概占了整个机器人售价成本的 38% 左右。我们希望能实现零样本泛化,换句话说,就是让机器人能够直接理解环境,直接完成导航任务。第二是全身运动控制,要解决的核心问题是开门。之前的控制是基于机器人静态的假设来实现的,哪怕是协作机器人也是保持自身不动去拉开门,这种方式需要的扭矩非常大。我们希望通过全身控制打破静态平衡的限制,依靠动态平衡的方法更泛化地解决开门的问题。

 

把这两个点结合起来,我们既能实现无需预先建图的门到门配送任务,同时又能解决开门和按电梯的任务。这两个方案结合之后,就可以实现最后五公里的门到门配送,既能开门、操作电梯,又能以无建图、无 GPS 的方式完成导航。室内本身没有 GPS 信号,但又需要实现导航,这时候视觉和语言理解的作用就非常关键了。

 

Q:除了直接销售机器人整机,具身智能未来的商业模式可能有哪些创新?

 

刘智勇:整机销售和租赁这两种方式都会存在。但我个人觉得,单纯的整机销售并不是很好的商业模式,更好的方式是 “整机销售 + 每年服务费” 的组合模式。如果只卖硬件,一次性卖完其实很亏,后续的售后压力会非常大。“整机销售 + 每年服务费” 就比较合理,既能保证长期的最大收益,又能解决售后问题,还能让设备商一次性回本。通过这种组合模式,能把原本不赚钱的 “卖铁生意”,变成能持续盈利的长期现金流生意。另一方面,用户一次性付太多钱确实承受不了。

 

除此之外,未来还可能出现按单收费的商业模式。比如人形配送机器人测算下来每单成本能控制在两到三元人民币,和达达这类上游公司合作,机器人完成一单就赚一笔费用。

本体厂商大收缩,要拼什么?

Q:到 2026 年,我们有望看到具身智能在能力边界上实现怎样的突破?整个具身智能领域的技术决胜点可能会是什么方面?

 

刘智勇:2026 年可能会有两个关键突破方向。第一是机器人在非结构化场景中实现稳定作业。要做到这一点,需要机器人具备一定的社交行为表现和自主导航能力。解决了之后,一些之前没想到的非结构化环境下的任务机器人也可能完成了。目前行业内大多还聚焦在结构化环境,所以这会是一个重要突破。第二是突破莫拉维克悖论(Moravec's Paradox)。以往大家觉得,机器能完成人类觉得难的事,但难以完成人类觉得简单的事,而 2026 年可能机器人也能胜任这类任务,会在人类觉得简单的事情上取得突破。

 

至于技术决胜点,我认为有几个关键因素,其中最重要的是世界模型的因果推理能力。一旦这项能力取得突破,无论是机器人的安全性还是行为和推理的安全性问题,都能得到很好的解决。

 

Q:2026 年,全球具身智能公司的竞争情况将如何变化?中国公司与国际巨头各自的优势和赛点分别会在哪里?

 

刘智勇:2026 年本体厂商肯定会收缩,马太效应会非常明显,估计中国最终只会剩下 5 到 8 家本体机器人公司。不过应用场景相关的公司和上游企业会多一些。

 

中国和国际企业的优势不一样,国际公司的大模型技术更先进,基础模型能力更强,国内企业还处在追赶状态,但中国企业拥有供应链成本优势。另外竞争维度也在升级,现在大家可能还在追求单点技术的先进性,到了 2026 年,整体系统的效率会变得更重要。

 

至于赛点,我觉得核心是在某个单一场景实现盈利,不是毛利而是不依赖大量售后成本的净利。谁能做到这一点,谁就能形成数据飞轮,有了数据之后,模型和方法能力会进一步提升,之后再推进跨场景复制。

如果把过去十年的 AI 落地情况简单概括为一句话,那大概是:AI 学会了“看”和“判断”,却还没真正学会“动手”。

在这段演进过程中,算法被装进摄像头、产线和各类终端设备,AI 在真实世界中承担起感知与决策的角色,成功完成了从实验室到产业化的跨越。

但在范浩强看来,这条路径始终存在一个边界——智能还停留在系统里,很少真正介入物理世界本身。

从某种程度上来说,范浩强的职业路径,正是沿着这条 AI 落地的主线一路走来的。

2025 年初,范浩强做出了一个在外界看来有点“不走寻常路”的选择:

作为旷视科技的第一位算法研究员,在 AI 1.0 时代经历了计算机视觉与 AIoT(AI 技术 + 物联网设备)的规模化落地之后,范浩强选择转身进入具身智能,一个技术门槛更高、研发周期更长的赛道。

他参与创办的这家公司,名为 Dexmal 原力灵机(下文简称原力灵机)。与他并肩创业的汪天才、周而进,同样来自于“AI 四小龙”之一的旷视。

围绕这次转身,AI 前线与范浩强展开了一次深度访谈,聊到了他的创业选择、具身智能的技术演进以及产业趋势等话题。谈及为何要去做机器人,范浩强表示:

“在 AI 的道路上,机器人是一个绕不过去的点。”

至于为何选择在 2025 年初这个时间点入局具身智能,范浩强的给出了一个冷静而务实的理由:

“之前没做,是因为我觉得还不成熟;现在这个时间点,硬件和算法的拼图终于开始拼起来了。”

“硬件和算法的拼图终于拼起来了”

在 2024 年,具身智能可谓是“火出圈”的——随着大模型能力外溢、真机效果显著提升,以及头部厂商集体入场,这一方向首次从学术讨论走向产业共识,成为 AI 领域最受关注的新热点之一。

到了 2025 年,更多变化已明显发生,首先是硬件侧

在过去两年里,机器人关键零部件——尤其是关节的国产化率出现了明显提升。

相比早期高度依赖进口方案,如今国内供应链在性能、稳定性和交付节奏上都逐步可用,这使得机器人在成本控制、系统集成和快速迭代上的不确定性大幅下降。

范浩强提到,这种变化并不意味着硬件问题已经被彻底解决,但至少从“不可控”,走向了“可工程化”:

“当供应链能跟得上研发节奏时,很多事情才有可能往前推进。”

与硬件变化几乎同步发生的,是算法侧出现的拐点。

Diffusion、Transformer 等模型开始进入机器人动作生成与控制领域,机器人不再只依赖规则或手工调参,而是可以通过数据学习复杂行为。在范浩强看来,这意味着具身智能不再只是“能演示”,而是开始具备系统性提升能力的基础。

也正是在这样的背景下,他判断:硬件和算法这两块长期错位的拼图,终于开始对齐了

再往前看,范浩强对下一阶段算法能力的期待,并不止于“动作更像人”。他认为,更关键的是机器人能否真正理解人的意图,并在交互过程中持续修正自身行为。

比如通过对话澄清不明确的指令,或在操作被打断、纠正后继续完成任务。这些能力,将决定具身智能能否从“可用”,走向“好用”。

具身智能研发,算法先行还是硬件先行?

近两年,机器人从动作到形态的进步都“肉眼可见”:能跑能跳已经不稀奇了,有的还能丝滑跳舞、打太极;而且过去只能在科幻片里看见的人形机器人也越来越多,甚至已经有不少进入了量产阶段。

伴随着这些变化,围绕机器人形态、硬件、整机能力的讨论也逐渐升温。

硬件之外,算法对于机器人的能力泛化和长期演进也很关键。那么算法与硬件在具身智能领域如何协同推进,在各家公司的具身智能早期研发中,是算法先行还是硬件先行?

对此,范浩强直言道:

“在我们看来,其实都是算法先行。”

他认为,即便是在外界看来以硬件能力见长的公司,其关键突破往往仍然来自算法层面。不同之处在于,这些算法未必是通用意义上的大模型,而可能是更偏底层的能力,例如运动控制(locomotion)相关算法。

他指出,当运动控制等核心算法成熟到一定阶段后,原本难以实现的动作能力会自然被解锁,硬件形态也随之发生变化。从这个意义上看,硬件能力的提升更像是算法突破之后的结果,而非起点。

基于这一判断,原力灵机内部在反复强调一条方法论:“模型解锁场景,场景定义硬件。”

模型能力决定了哪些任务和场景可以被真正解决,而具体场景的需求,才反过来塑造硬件的结构、配置与形态。

同时,范浩强也强调,硬件研发本身有其客观周期,无法被简单压缩;真正需要持续保持高节奏竞争的,是算法能力的演进速度。

在他看来,具身智能是一场长期竞争,不同环节在不同阶段承担的角色并不相同,但算法能力的迭代效率,始终是决定整体进展速度的重要因素之一。

原力灵机的路线:多模态、真机数据,先把规矩立住

那么,要如何保证算法能力的高节奏演进速度?

原力灵机作出的选择,是一条更贴近落地需求、也更耐磨的路线

首先,他们是从一开始就做多模态

在范浩强看来,传统的 VLA(Vision–Language–Action)框架,如果过度依赖视觉信息,在真实场景里很快就会撞上天花板。比如机器人真正“干活”时,面对的不是干净的画面,而是接触、摩擦、受力和空间约束,这些信息单靠“看”是远远不够的。

因此,原力灵机并没有把 Vision 当作默认前提,而是从模型训练阶段就引入 Multimodality:除了视觉,还包括深度信息、力觉、触觉,必要时甚至加入声音信号

这样做并不是为了把系统搞复杂,而是出于一个非常现实的判断——如果机器人要稳定、安全地完成任务,这些感知维度缺一不可

第二点,是在数据上选择“慢一点,但更真”

在数据策略上,原力灵机把重点放在真机遥操数据上,并且明确坚持“质量优先”。范浩强多次提到,机器人做的往往是“细活”:一个抓取动作是否成功,差别可能只在几毫米、几牛顿的力控误差。

这也意味着,数据采集本身就不能是“顺手一录”,而必须被当作一项工程来设计——包括传感器的同步方式、遥操流程的规范程度,以及操作行为本身的可复现性。

只有在这样的基础上,算法训练出来的能力,才有可能在真实场景中稳定复现。

此外还有一个重点,就是得赶紧先把“怎么比”这件事说清楚

在范浩强看来,具身智能仍处在早期阶段,行业里一个明显的缺口是:缺少统一、可信的评测体系。如果没有清晰的 Benchmark,不同方案之间很难进行有效比较,也很难形成真正的技术共识。

因此,原力灵机选择在早期就投入精力,联合 Hugging Face 共同推出真机评测平台 RoboChallenge 以及相关开源工具的建设,比如一站式 VLA 工具箱 Dexbotic 和公司首个开源硬件产品 DOS-W1。

用范浩强的话说,就是先把规矩立住,再谈模型强不强:

“我们希望先把比较的方法拿出来,让大家在同一套标准下形成共识。之后再在这些已被认可的方法上,去验证和证明我们模型的表现,这样也更利于外界准确理解我们的能力。”

从多模态感知,到真机数据,再到评测体系,每一步都指向同一个目标:让算法能力能够被验证、被复现、被长期积累。

这里记录每周值得分享的科技内容,周五发布。


本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

武汉首座电梯升降桥最近建成开放。因为上游有船厂,所以大桥有四根巨大的电梯柱,用来升起桥面,让船通过。(via

预测是新的互联网热点

大家大概想不到,美国互联网的热点,现在不是 AI 网站,而是一种全新的网站,叫做"预测市场"(prediction market)。

这类网站像雨后春笋一样,每天都在冒出来。最有名的预测市场,目前是 PolyMarket

预测市场的用途,就是预测各种各样的事情。以 PolyMarket 为例,首页顶部就是各种预测的分类。

热门事件、突发事件、最新预测、政治、体育......

只要是你能想到的事情,它都提供预测

以上周末为例,首页热门预测如下(上图)。

  • 《时代》杂志的年度人物是谁?
  • 《时代》杂志年度人物名单会泄露吗?
  • 美联储一月份的决定是什么?
  • OpenAI 下一次的大模型发布是哪一天?

你随便选一个,点进去就能看到,各种情况的概率。

上图预测的是,2025年12月5日至12日期间,马斯克会发多少条推文。

可以看到,概率最高的情况是440条~450条,概率33%,概率最低的情况是400条~419条,概率1%。

正是因为对于几乎任何问题,它都有实时的详细预测,美国人现在已经不怎么看民调了,改成看这种预测网站了。因为民调的抽样方法和样本大小,总是有局限的,反而是预测网站更反映市场的真实看法。

你可能会问,这些预测结果怎么产生?如何确保准确?

答案很简单,结果来自于用户的下注。

你看好哪一种情况,就可以对它下注。看好的人多,这种情况对应的概率就会上升,反之下降。

实质上,它的每一个预测都是一支股票,股价就是它的概率,1%的概率就是股价0.01元,100%的概率就是股价1元。

举例来说,某种情况的当前概率是2%,那么相当于0.02元。你看好这种情况,假定就花了100元买入。

结果,正如你的预测,它变成了现实,概率上升为100%,价格就变成了1元,相比你的买入价,整整上涨了50倍。于是,你投入的100元就变成了5000元。

反之,你预测错了,这个结果没有实现,概率变为0%,也就是0元,你投入的100元将一分都收不回来。

最近,美国的一条热门新闻就是,一个男子在 PolyMarket 上,对一个2%的小概率事件投入3000美元。结果,预测准确,他收回了12.5万美元。

为了方便世界各地的人参与,也是为了保证匿名,这种预测网站都采用稳定币交易。

所以,它的本质就是一个巨大的彩票市场,允许用户买卖自己最感兴趣、最熟悉的事件,这是它快速流行起来的根本原因。参与的人多了以后,反过来提高了预测的准确性。

我觉得,它的前景不可限量,一定会火爆的井喷式发展,传统彩票可能会被它彻底淘汰。

它把任何不确定的事情,都变成了彩票,实时量化了每一种可能性的概率,并且提供了金钱翻倍的途径。这一方面很有参考价值,可以用来判断未来情况,另一方面也非常有娱乐性和刺激性。

国产 Nano Banana Pro 的图片幻灯片生成

上个月,谷歌发布了新一代图像编辑模型 Nano Banana Pro(其实就是 Gemini 3 Pro 的图像分支)。

有一个功能引起了轰动:无论多么枯燥的文字,都能变成有趣的图片,从"读文"变成"读图"。

我当时就想,国产模型一定会马上跟进。

果然,昨天打开秘塔 AI,就看到他们发了这个功能完全对标 Nano Banana Pro 以及 NotebookLM,而且还加入了自己的特色----讲解。

你点击"上传文件"(上图),上传各种资料(可以上传多篇),它就会自动创建一个知识库,输出内容的 AI 总结。这时,还会显示一个"给我讲讲"按钮。

上图是我写的一篇 JS 语法点 Promise 的教程,点击"给我讲讲"就会生成图片幻灯片 + 讲解。

大家可以去它们的官网 metaso.cn (手机 App 同名)试试看,这个功能挺好玩的,操作零门槛,关键是它免费(有赠送的积分)。

除了上传文件,你也可以直接搜索某个主题,再点击下方的"生成幻灯片"按钮。这时就会有"图片幻灯片"选项,并有20多种风格可选,还支持自定义。

科技动态

1、步行环游世界

上个世纪90年代的一天,一个英国青年在酒吧里随口说,他可以从南美洲最南端一路走到英国。他的朋友都不信。

他就跟朋友打赌,他能做到。1998年,他正式从智利最南端开始步行,那一年他29岁。

27年过去了,他已经56岁了,依然在路上。

好消息是,他已经接近行程的尾段,预计将于2026年9月到达终点英国。

下面就是他的路线图,从南美洲最南端到北美洲最北端,再到亚洲和欧洲,最后是英国。

整个行程中,他只能步行或者游泳,不能使用任何交通工具。最难的一段就是北美洲与俄罗斯之间的白令海峡,为了不坐船,他是在冬天从海冰上爬过去的。

这27年中,他也不是每天都在走,有时因为各种原因,会离开一段日子,然后再回来接着走。

他说,依靠个人的力量不可能完成这样的行程,留不开家人的支持、陌生人的友善,以及赞助商的帮助。

至于是什么力量支撑他坚持走了近30年?他说:"你需要看看真实的世界,以及生活在其中的人们,这将是你所能接受的最好的教育之一。"

2、六臂机器人

美的公司展示一个六臂机器人,将用于无锡工厂的生产线。

它可以六只手同时执行三项任务。那样的话,一个机器人就相当于三个工人了。

3、手摇洗衣机

一位前戴森公司的工程师,为不发达地区发明了一种手摇洗衣机。

据介绍,这种洗衣机不需要电,只要手摇几分钟,就能洗净5公斤衣物,并且节省一半的水。

如果它真的有效,我有一个建议,就是把手摇改成脚踏车,只要踩5分钟踏板,就能洗一筒衣服。

文章

1、程序员为自己的工具命名时的彻底迷失(英文)

本文批评很多程序员为软件起名时,尽起一些烂七八糟的名字,根本看不出软件的用途,建议软件名称应该跟用途有相关性。

2、解读斯诺登文件(英文)

这篇文章详细分析了2013年斯诺登泄漏的文件,文章第一部分就是分析对北方工业公司的情报收集,美国的监控令人叹为观止。

3、从文本到词元(英文)

一篇科普文章,通俗地介绍搜索引擎如何将查询的文本转换成标准化的词元(token)。

4、大模型构建 HTML 工具的实用方法(英文)

著名程序员 Simon Willison 的长文,总结他使用大模型生成网页应用的经验。

5、GraphQL 蜜月期已结束(英文)

作者认为,GraphQL 解决的问题远比人们想象的小众,而且可以通过其他方式解决,这项技术最终往往弊大于利。

6、git add -p 的解释(英文)

本文介绍 git add -p 命令。它会显示一个互动界面,让用户逐个确认每个文件的变动,是否要加入暂存区。

工具

1、Cosmic

上周,Cosmic 1.0版正式发布了。它是一个全新的 Linux 桌面,美观且功能强大,为用户提供了 Gnome 和 KDE 之外的另一个选择。

2、Keyden

macOS 菜单栏的开源 TOTP 双因素认证器,密钥加密存储在 macOS Keychain。(@tasselx 投稿)

3、WeMD

开源的 Markdown 微信公众号编辑器。(@tenngoxars 投稿)

4、starling-speak

文本朗读网站,支持多种语言,带有录音功能。(@Keldon-Pro 投稿)

5、shift

一个基于 WebAssembly 的在线代码编辑器,支持直接在网页运行 Python、Lua、Ruby 等语言。(@hubenchang0515 投稿)

6、EasyImg

基于 Nuxt 4 构建的个人图床,丰富的后台配置。(@chaos-zhu 投稿)

7、Go-WXPush

Go 语言开发的微信消息推送服务,提供了一个简单的 API 消息推送接口。代码开源,每天10万次推送额度,个人用不完。(@hezhizheng 投稿)

8、ZeroLaunch-rs

Windows 应用启动器,拼音模糊匹配,基于 Rust + Tauri + Vue.js。(@ghost-him 投稿)

9、MrRSS

跨平台的开源桌面 RSS 阅读器,支持自动翻译、自动总结、新订阅源发现。(@ch3ny4ng 投稿)

10、PVE Touch

为移动设备优化的 Proxmox VE 管理界面,方便通过手机管理虚拟机。(@hanxi 投稿)

AI 相关

1、Disco

谷歌实验室推出的实验性 AI 浏览器,完全跳过网页搜索,目前需要排队等待名额。

2、Flowers

开源的浏览器 AI 助手插件,提供网页翻译、问答、笔记等功能。(@snailfrying 投稿)

3、DeepAudit

开源的代码审计平台,通过智能体实现漏洞挖掘和自动化沙箱 PoC 验证,支持 ollama 私有部署模型,代码可不出内网。(@lintsinghua 投稿)

资源

1、生命的尺寸

这个网站用图形展示各种生命体的大小比较,从 DNA 一直到蓝鲸。

2、写一个你自己的 C 语言编译器(Build Your Own Lisp)

一本面向初学者的免费英文电子书,介绍怎么用 C 语言写编译器,以 Lisp 语言的编译器为例。

3、A Soft Murmur

一个背景音网站,可以开关不同的音效,并调节它们的音量。

图片

1、13个圆画出动物

一个艺术家使用13个圆,画出各种动物。

猫头鹰

兔子

猴子

文摘

1、Claude Opus 4.5 是第一款让我真正担心自己工作会丢掉的大模型

Claude Opus 4.5 真是完全不同于其他模型。还没用过的人根本无法想象未来两三年会发生什么,明年可能就是最终的转折点。

我不知道接下来该如何适应。当然,我可以整天看着 Opus 帮我工作,偶尔出点小问题再干预一下,但再过一段日子连这些都不需要了呢?

编码问题基本上已经解决了,接下来像系统设计、安全之类的问题也会迎刃而解。我估计再过两三个版本,80%的技术人员就基本没用了。当然,公司还需要一些时间来适应,但他们肯定会想方设法尽快摆脱我们。

虽然我很喜欢 AI 这项技术,但一想到这一切最终会走向何方,我就感到难过。

2、为什么学习物理学

(本文摘自理查德·费曼于1963年6月在里约热内卢举行的美洲物理教育会议上发表的演讲。费曼是加州理工学院理论物理学教授。)

我们应该教授物理学,这有五个原因。

(1)物理是一门基础科学,应用于工程学、化学和生物学等各种技术领域。

物理是研究自然界的科学,或者说是认识自然界的科学,它告诉我们事物是如何运作的,以及人类在当前和未来的技术中发明的各种设备是如何工作的。因此,懂物理的人应对本行业出现的技术问题会很有用。

(2)物理教会你如何动手做事情。它教授许多操纵事物的技巧,以及测量和计算技巧,这些技巧的应用范围比特定研究领域要广泛得多。

(3)物理作为一门科学,对许多人来说,是一种极大的乐趣。

科学教育培养出来的科学家,不仅为工业发展和知识发展做出贡献,同时也参与了我们这个时代的伟大冒险,从中获得巨大的乐趣。

即使一个人没有成为一名专业科学家,研究自然也是为了欣赏自然的奇妙和美丽。这种对自然的了解也给人一种稳定和现实的感觉,并驱散了许多恐惧和迷信。

(4)物理教会人们如何认识事物,帮助你质疑很多事情。质疑和自由思想的价值,不仅对科学发展,而且对其他各个领域,都显而易见。

科学教导我们如何认识事物、什么是未知事物、事物被认识到什么程度、如何处理怀疑和不确定性、证据规则是什么、如何思考事物以便做出判断、如何区分真理与欺诈。这些无疑是教授科学,特别是教授物理的重要收获。

(5)在学习科学的过程中,你会学会如何试错,培养发明创造和自由探索的精神,这种精神的价值远远超出了科学本身。

人们会学会问自己:"有没有更好的方法 ?"我们必须想出一些新的技巧或方法,以改进这项技术。这种想法是许多思想、发明创造以及各种人类进步的源泉。

言论

1、

为什么我们有两个鼻孔,而不是一个大洞?

因为肺部持续需要空气,两个鼻孔可以交替工作,让鼻子的一侧得到休息。

-- 美国《大众科学》

2、

报社招我去当撰稿人,我以为是去写稿,结果却是以极低的薪水让我编辑 AI 生成的文案草稿,理由是"大部分工作已经完成了"。

这让我深受打击,我曾经觉得自己很有价值,受人重视,对未来充满希望,渴望拥有辉煌的职业生涯,现在却只能修改 AI 生成的文字。

-- 一位自由撰稿人

3、

SaaS 行业将会萎缩,尤其是那些功能简单的 SaaS,因为企业现在可以用 AI 快速生成内部服务。

-- 《AI 正在蚕食 SaaS》

4、

我发现,中文不喜欢直接说 True,更倾向说 !False。比如,英文说"很好",中文说"不坏",英文说"对的",中文说"没错",英文说"正常",中文说"没问题"。

中文更喜欢双重否定"否定词+否定词",这种表达方式增加了模糊性(含糊其辞)和灵活性(模棱两可),创造了回旋余地,避免了肯定答复导致的态度明确、归类迅速、立场鲜明。

-- 《为什么中文拒绝说 true》

往年回顾

你可能是一个 NPC(#331)

新基建的政策选择(#281)

互联网公司需要多少员工?(#231)

移动支付应该怎么设计?(#181)

(完)