标签 具身智能 下的文章

一代目 Demo



一代目 Demo 展示

目前 v1.0 版本已跑通。

场景:一个 6 个月大的虚拟婴儿,在一个包含干扰项(鸭子、球)的房间里,自主产生 "推箱子" 的策略。

这是刚刚跑出的实时运行 Log(未加速):

(注:包含最新的注意力机制 Attention System)

============================================================
🎬 GENESIS-v1: Embodied AGI Prototype (with Attention)
============================================================



[  0.20s] --- INITIALIZING WORLD & AGENT ---
[  0.90s] ℹ️  Spawned 7 objects in scene
       - RedBox (red)
       - BlueBall (blue)
       - TeddyBear (brown)
       - GreenCup (green)
       - YellowDuck (yellow)
       - PurpleBook (purple)
       - OrangeToy (orange)
[  1.10s] ℹ️  Agent Age: 6 months | State: 躺

========================================
|                                        |
|                                        |
|                    #                   |
|                                        |
|                                        |
|                                        |
|                                        |
|                                        |
|                                        |
|                                        |
|                    B                   |
|________________________________________|
========================================



[  1.80s] --- PHASE 0: ATTENTION FILTERING ---
[  2.51s] 📊 Visual Field: Scanning all objects...

  [ATTENTION HEATMAP]
  RedBox       [████████████████░░░░] 0.83 ◀ FOCUS
  YellowDuck   [██████████░░░░░░░░░░] 0.52
  GreenCup     [█████████░░░░░░░░░░░] 0.48
  BlueBall     [██████░░░░░░░░░░░░░░] 0.34
  TeddyBear    [████░░░░░░░░░░░░░░░░] 0.24
  PurpleBook   [████░░░░░░░░░░░░░░░░] 0.21
  OrangeToy    [██░░░░░░░░░░░░░░░░░░] 0.14

[  2.71s] ✅ Attention Winner: RedBox (Score: 0.83)
[  2.91s] ℹ️  Filtered out 6 distractors


[  3.11s] --- PHASE 1: PERCEPTION & PREDICTION ---
[  3.81s] 📊 Visual Cortex: Processing focused object...
[  4.02s] 📊 Identified Object: RedBox
[  4.22s] 📊 Proprioception: Balance=0.67


[  4.42s] --- PHASE 2: MOTOR PLANNING (REACH) ---
[  5.12s] 🤚 Intent: REACH -> [0.  0.5 0. ]


[  5.82s] --- PHASE 3: ACTION EXECUTION (PUSH) ---
[  6.52s] 🤚 Intent: PUSH -> Force: 1.0N
[  7.53s] ✅ Motor Cortex: Execution Complete
[  7.73s] ✅ Physics Engine: Object Moved to [0.   0.52 0.  ]

========================================
|                                        |
|                                        |
|                    #                   |
|                    .                   |
|                    .                   |
|                    .                   |
|                    .                   |
|                    .                   |
|                    .                   |
|                    .                   |
|                    B                   |
|________________________________________|
========================================



[  8.43s] --- PHASE 4: LEARNING & CONSOLIDATION ---
[  9.13s] ✅ Task Completed: Object Displacement Detected
[  9.33s] 📊 Hippocampus: Consolidated 2 experiences
[  9.53s] 📊 Synaptic Plasticity: Active

✅ SIMULATION COMPLETED SUCCESSFULLY


有没有佬觉得可行?


📌 转载信息
原作者:
fakefakefake
转载时间:
2026/1/11 08:30:12

如果把过去十年的 AI 落地情况简单概括为一句话,那大概是:AI 学会了“看”和“判断”,却还没真正学会“动手”。

在这段演进过程中,算法被装进摄像头、产线和各类终端设备,AI 在真实世界中承担起感知与决策的角色,成功完成了从实验室到产业化的跨越。

但在范浩强看来,这条路径始终存在一个边界——智能还停留在系统里,很少真正介入物理世界本身。

从某种程度上来说,范浩强的职业路径,正是沿着这条 AI 落地的主线一路走来的。

2025 年初,范浩强做出了一个在外界看来有点“不走寻常路”的选择:

作为旷视科技的第一位算法研究员,在 AI 1.0 时代经历了计算机视觉与 AIoT(AI 技术 + 物联网设备)的规模化落地之后,范浩强选择转身进入具身智能,一个技术门槛更高、研发周期更长的赛道。

他参与创办的这家公司,名为 Dexmal 原力灵机(下文简称原力灵机)。与他并肩创业的汪天才、周而进,同样来自于“AI 四小龙”之一的旷视。

围绕这次转身,AI 前线与范浩强展开了一次深度访谈,聊到了他的创业选择、具身智能的技术演进以及产业趋势等话题。谈及为何要去做机器人,范浩强表示:

“在 AI 的道路上,机器人是一个绕不过去的点。”

至于为何选择在 2025 年初这个时间点入局具身智能,范浩强的给出了一个冷静而务实的理由:

“之前没做,是因为我觉得还不成熟;现在这个时间点,硬件和算法的拼图终于开始拼起来了。”

“硬件和算法的拼图终于拼起来了”

在 2024 年,具身智能可谓是“火出圈”的——随着大模型能力外溢、真机效果显著提升,以及头部厂商集体入场,这一方向首次从学术讨论走向产业共识,成为 AI 领域最受关注的新热点之一。

到了 2025 年,更多变化已明显发生,首先是硬件侧

在过去两年里,机器人关键零部件——尤其是关节的国产化率出现了明显提升。

相比早期高度依赖进口方案,如今国内供应链在性能、稳定性和交付节奏上都逐步可用,这使得机器人在成本控制、系统集成和快速迭代上的不确定性大幅下降。

范浩强提到,这种变化并不意味着硬件问题已经被彻底解决,但至少从“不可控”,走向了“可工程化”:

“当供应链能跟得上研发节奏时,很多事情才有可能往前推进。”

与硬件变化几乎同步发生的,是算法侧出现的拐点。

Diffusion、Transformer 等模型开始进入机器人动作生成与控制领域,机器人不再只依赖规则或手工调参,而是可以通过数据学习复杂行为。在范浩强看来,这意味着具身智能不再只是“能演示”,而是开始具备系统性提升能力的基础。

也正是在这样的背景下,他判断:硬件和算法这两块长期错位的拼图,终于开始对齐了

再往前看,范浩强对下一阶段算法能力的期待,并不止于“动作更像人”。他认为,更关键的是机器人能否真正理解人的意图,并在交互过程中持续修正自身行为。

比如通过对话澄清不明确的指令,或在操作被打断、纠正后继续完成任务。这些能力,将决定具身智能能否从“可用”,走向“好用”。

具身智能研发,算法先行还是硬件先行?

近两年,机器人从动作到形态的进步都“肉眼可见”:能跑能跳已经不稀奇了,有的还能丝滑跳舞、打太极;而且过去只能在科幻片里看见的人形机器人也越来越多,甚至已经有不少进入了量产阶段。

伴随着这些变化,围绕机器人形态、硬件、整机能力的讨论也逐渐升温。

硬件之外,算法对于机器人的能力泛化和长期演进也很关键。那么算法与硬件在具身智能领域如何协同推进,在各家公司的具身智能早期研发中,是算法先行还是硬件先行?

对此,范浩强直言道:

“在我们看来,其实都是算法先行。”

他认为,即便是在外界看来以硬件能力见长的公司,其关键突破往往仍然来自算法层面。不同之处在于,这些算法未必是通用意义上的大模型,而可能是更偏底层的能力,例如运动控制(locomotion)相关算法。

他指出,当运动控制等核心算法成熟到一定阶段后,原本难以实现的动作能力会自然被解锁,硬件形态也随之发生变化。从这个意义上看,硬件能力的提升更像是算法突破之后的结果,而非起点。

基于这一判断,原力灵机内部在反复强调一条方法论:“模型解锁场景,场景定义硬件。”

模型能力决定了哪些任务和场景可以被真正解决,而具体场景的需求,才反过来塑造硬件的结构、配置与形态。

同时,范浩强也强调,硬件研发本身有其客观周期,无法被简单压缩;真正需要持续保持高节奏竞争的,是算法能力的演进速度。

在他看来,具身智能是一场长期竞争,不同环节在不同阶段承担的角色并不相同,但算法能力的迭代效率,始终是决定整体进展速度的重要因素之一。

原力灵机的路线:多模态、真机数据,先把规矩立住

那么,要如何保证算法能力的高节奏演进速度?

原力灵机作出的选择,是一条更贴近落地需求、也更耐磨的路线

首先,他们是从一开始就做多模态

在范浩强看来,传统的 VLA(Vision–Language–Action)框架,如果过度依赖视觉信息,在真实场景里很快就会撞上天花板。比如机器人真正“干活”时,面对的不是干净的画面,而是接触、摩擦、受力和空间约束,这些信息单靠“看”是远远不够的。

因此,原力灵机并没有把 Vision 当作默认前提,而是从模型训练阶段就引入 Multimodality:除了视觉,还包括深度信息、力觉、触觉,必要时甚至加入声音信号

这样做并不是为了把系统搞复杂,而是出于一个非常现实的判断——如果机器人要稳定、安全地完成任务,这些感知维度缺一不可

第二点,是在数据上选择“慢一点,但更真”

在数据策略上,原力灵机把重点放在真机遥操数据上,并且明确坚持“质量优先”。范浩强多次提到,机器人做的往往是“细活”:一个抓取动作是否成功,差别可能只在几毫米、几牛顿的力控误差。

这也意味着,数据采集本身就不能是“顺手一录”,而必须被当作一项工程来设计——包括传感器的同步方式、遥操流程的规范程度,以及操作行为本身的可复现性。

只有在这样的基础上,算法训练出来的能力,才有可能在真实场景中稳定复现。

此外还有一个重点,就是得赶紧先把“怎么比”这件事说清楚

在范浩强看来,具身智能仍处在早期阶段,行业里一个明显的缺口是:缺少统一、可信的评测体系。如果没有清晰的 Benchmark,不同方案之间很难进行有效比较,也很难形成真正的技术共识。

因此,原力灵机选择在早期就投入精力,联合 Hugging Face 共同推出真机评测平台 RoboChallenge 以及相关开源工具的建设,比如一站式 VLA 工具箱 Dexbotic 和公司首个开源硬件产品 DOS-W1。

用范浩强的话说,就是先把规矩立住,再谈模型强不强:

“我们希望先把比较的方法拿出来,让大家在同一套标准下形成共识。之后再在这些已被认可的方法上,去验证和证明我们模型的表现,这样也更利于外界准确理解我们的能力。”

从多模态感知,到真机数据,再到评测体系,每一步都指向同一个目标:让算法能力能够被验证、被复现、被长期积累。

报告摘要

2025年11月24日,人工智能领域在开源社区和企业应用层面均展现出强劲活力。小米发布了业界首个开源的自动驾驶与具身智能融合大模型MiMo-Embodied,Sber也开源了包括视频生成在内的一系列新模型。学术界持续探索AI Agent、多模态及模型可信赖性等前沿方向。企业动态方面,三星与英伟达宣布合作共建AI巨型工厂,预示着AI将深度赋能智能制造。同时,AI在网络安全、音乐授权等领域的应用也取得了新进展。

一、模型发布与产品更新 (Model Releases & Product Updates)

  1. 小米发布MiMo-Embodied开源模型
    小米公司发布了业界首个开源的视觉-语言基础模型 MiMo-Embodied。该模型旨在无缝集成自动驾驶和具身智能(Embodied AI)任务,在任务规划、可供性预测和空间理解方面表现出色,为机器人和智能汽车的协同发展提供了新的技术路径。(来自newsbytesapp.com)
  2. Sber开源一系列生成式AI模型
    俄罗斯联邦储蓄银行(Sber)发布并开源了多个AI模型,包括:

    • Kandinsky 5.0系列:包含Video Pro、Video Lite和Image Lite,原生支持俄语提示,并能稳健生成含西里尔字母的图像和视频。
    • K-VAE 1.0:一个高性能的开源图像/视频编解码器模型,对训练视觉生成模型至关重要。
    • GigaChat Ultra Preview / Lightning:基于混合专家(MoE)架构的新模型,专为俄语任务优化。(来自newsbytesapp.com)

二、精选AI论文 (New Papers)

arXiv在过去24小时内更新了多篇值得关注的论文,主要集中在多智能体系统、联邦学习和AI可信赖性等领域:

  • arXiv:2511.16205 - ChemLabs on ChemO: A Multi-Agent System for Multimodal Reasoning on IChO 2025: 介绍了一个用于化学奥林匹克竞赛(IChO)多模态推理的多智能体系统,展示了AI在复杂科学推理任务中的潜力。(来自arxiv.org)
  • arXiv:2511.16423 - TOFA: Training-Free One-Shot Federated Adaptation for Vision-Language Models: 提出了一种名为TOFA的免训练、一次性联邦自适应框架,用于视觉-语言模型,旨在解决联邦学习中的数据异构性和通信效率问题。(来自arxiv.org)
  • arXiv:2511.16402 - Trustworthy AI in the Agentic Lakehouse: from Concurrency to Governance: 探讨了在Agentic Lakehouse架构中实现可信赖AI的挑战,从并发性到治理提出了一个框架,对构建可靠的企业级AI系统具有指导意义。(来自arxiv.org)

三、热门开源项目 (Open-Source Projects)

  1. google / adk-go
    谷歌为Go语言开发者推出的AI Agent开发工具包(ADK)继续在GitHub上保持高热度。它提供了一个代码优先的开源工具集,用于构建、评估和部署复杂的AI智能体,持续吸引着社区的关注。(来自github.com)
  2. microsoft / call-center-ai
    微软开源的AI呼叫中心项目热度不减,该项目允许开发者通过API调用或直接拨打电话号码与AI Agent进行通话,为构建自动化客服、语音助手等应用提供了基础框架。(来自github.com)
  3. yeongpin / cursor-free-vip
    一个旨在免费使用Cursor AI编辑器Pro功能的工具登上趋势榜。该项目通过重置机器ID来绕过付费限制,虽然这反映了社区对强大AI编程工具的渴望,但也引发了关于软件许可和道德使用的讨论。(来自github.com)

四、重大科技新闻与公告 (Major Tech News)

  1. 三星与NVIDIA合作共建AI巨型工厂
    三星电子宣布与NVIDIA深化合作,将通过建设新的“AI巨型工厂”(AI Megafactory)来引领全球智能制造的转型。此举旨在将AI技术深度整合到生产流程中,提升效率和创新能力。(来自samsung.com)
  2. Anthropic挫败首例AI驱动的大规模网络间谍活动
    AI安全公司Anthropic宣布,其协助识别并挫败了首个主要由AI智能体大规模策划的网络间谍攻击。该攻击在很大程度上无需人类干预,凸显了AI在网络攻防两端日益增长的重要性。(来自apnews.com)
  3. OpenAI招募Intel AI高管
    OpenAI招募了Intel公司的首席技术与人工智能官Sachin Katti。他将负责领导设计和构建实现通用人工智能(AGI)所需的庞大计算基础设施,显示出OpenAI在硬件和基础设施层面的战略布局正在加速。(来自technologymagazine.com)
  4. 索尼、华纳等与AI音乐初创公司签署授权协议
    索尼、华纳和环球三大唱片公司与AI音乐初创公司Klay签署了授权协议。这一里程碑事件为AI生成音乐的合法化和商业化铺平了道路,可能将重塑音乐产业的创作和分发模式。(来自technologymagazine.com)

https://track.linso.ai/zh/execution/cmicgehwr03cwl694l1nkc212