标签 Computer Vision 下的文章

市面上 AI 课程一大堆,但要么太理论,要么太基础。本文对 Coursera 上 6 门优质 AI 课程进行了评测,结合国内初级开发者视角,帮你看懂各课程适合什么人、侧重点是什么,以及如何按自己的起点与目标做出选课决策。

导语

想系统学 AI 的程序员,近两年大概都干过一件事:

打开 Coursera 或其他平台,看到铺天盖地的 AI/ML 课程,然后 —— 关掉网页,继续刷短视频。

不是你不想学,而是:

  • 有的课过于理论,上了几节就被数学公式劝退;
  • 有的课过于入门,讲半天“什么是 AI”,却完全帮不上忙;
  • 真正能让你在简历和工作里都“有感觉”的课,又埋在一大堆选项里。

本文筛选出了 6 门“不浪费时间、能换来实际职业价值”的 Coursera 课程,并结合初级开发者视角,帮你搞清楚:

  • 这 6 门课,各自适合谁?
  • 如果你是初级开发者,应该先上哪一门?
  • 上完之后,应该怎么把所学变成真正的项目经验?

问题:AI 课很多,真正适合职场开发者的却不多

过去一年,很多人都有类似经历:

  • 带着“我要系统学 AI”的决心报了课;
  • 三节课之后,发现不是太抽象,就是太基础;
  • 最后课程一堆“进行中”,真正完成的少之又少。

大部分 AI 课程存在两个极端

  1. 要么面向研究生,数学证明一大堆,工作中很难直接用上;
  2. 要么把你当成完全不会电脑的小白,讲得过于浅,学完也不知道能干嘛。

而身处职场、尤其是入行 1–5 年的开发者,真正想要的是:

  • 上完课可以直接放到简历上的实打实的项目或证书
  • 能够帮助自己在团队里承担更多和 AI 相关的工作;
  • 在未来 1–2 年的职业选择里,多几条通道,而不是只会“跟风看热闹”。

所以,问题并不是“要不要学 AI”,而是:

怎样选到既不浪费时间、又能真实提升职场竞争力的 AI 课程?

误区:两种最常见的“选课踩坑”

误区一:只看“最难、最硬核”,结果半途而废

很多程序员的直觉是:

“一定要选最硬核、最学术的课,才显得值。”

结果报了课才发现:

  • 你要先补完一整套高数、概率统计、线性代数;
  • 课程作业更像研究生作业,而不是工程项目;
  • 上了几周,既看不见和工作场景的连接,也看不到短期内的产出。

这种“过度学术化”的路径,

  • 对想做科研或者攻读相关学位的人当然有价值;
  • 但对大多数只想把 AI 用到工作里的开发者来说,性价比非常低

误区二:只看“最轻松、最快拿证”,结果学完没用

另一种极端,是专门找:

  • 课时少、作业简单、几乎不用动手;
  • 全程在听“AI 概念故事”,几乎没有真实项目;
  • 学完唯一收获就是“多了一个证书链接”。

这类课程短期看很爽,

  • 但它既不会改变你写代码的方式;
  • 也很难在面试中解释“你到底掌握了什么”。

好课程既不能只停留在概念层面,也不能把你扔进纯数学海洋。

它应该:尊重你的智商,又尊重你的时间。


方法:一套更靠谱的 AI 选课思路

我们可以用一套简单的三问法来筛课:

  1. 课程是否清楚标明“适合谁”?

    • 是给完全不写代码的人,还是给开发者、产品、管理者?
  2. 课程是否有“可展示”的成果?

    • 项目、作业、证书,是否能放到简历或作品集中?
  3. 课程内容能否连接到 1–2 年内的职业机会?

    • 比如:AI 产品经理、AI 应用开发、数据驱动业务岗位等。

在这套筛选逻辑下,本文精选出的 6 门 Coursera 课程,大致覆盖了三类典型需求:

  • “我想从零开始理解 AI,并做点东西”
  • “我需要为团队、公司做 AI 相关的业务决策”
  • “我已经会写代码,想向更专业的 AI 工程方向迈一步”

下面将这 6 门课逐一拆解,告诉你适合哪些人学。


6 门 Coursera AI 课程逐一拆解

1)IBM 的人工智能导论(Introduction to Artificial Intelligence)

IBM 的人工智能导论

链接:https://www.coursera.org/learn/introduction-to-ai

一句话理解:

既照顾零基础,又不只是“科普故事”的 AI 入门课,
用动手实验带你跑通从概念到简单应用的闭环。

课程亮点:

  • 通过 实操实验 而不是长篇理论介绍 AI 基础;
  • 覆盖机器学习、深度学习、神经网络等核心概念;
  • 你会真正去 构建一个面向业务场景的生成式 AI 解决方案
  • 涉及 NLP、计算机视觉、机器人等典型应用方向;
  • 有一个简短但重要的 AI 伦理 模块,帮你建立底线意识。

适合谁:

  • 入行 1–3 年、已经会一门编程语言的开发者;
  • 想要一个“既不劝退、又有实战味道”的 AI 第一门课;
  • 希望拿到一个可以放 LinkedIn/简历上的 IBM 证书。

作为初级开发者,可以这样用这门课:

  • 把课程里的业务案例,

    • 尽量贴近自己所在行业(如电商、金融、物流);
    • 在完成作业的基础上,再自己加一点小改造;
  • 上完课后写一篇小总结:

    • “如何用生成式 AI 优化我们团队的某个流程”,
    • 这是非常适合放到公众号或内部分享的内容。

2)Andrew Ng 的 AI For Everyone

Andrew Ng 的 AI For Everyone

链接:https://www.coursera.org/learn/ai-for-everyone

一句话理解:

这不是教你写代码的课,而是教你
看懂 AI 项目真正的边界与机会,尤其适合想往“技术 + 业务”方向走的人。

课程亮点:

  • Andrew Ng 的教学能力不用多说,讲解清晰、接地气;
  • 面向 非技术背景跨职能角色(产品、运营、管理者等);
  • 重点讲:

    • AI 实际能做什么、不能做什么;
    • 如何在组织中识别 AI 机会;
    • 一个 AI 项目从立项到上线大致长什么样;
  • 有专门的 AI 战略模块,讲如何规划路线图和预算。

适合谁:

  • 想往 Tech Lead / 架构 / 产品化 路线发展的开发者;
  • 在中小团队里,已经开始参与需求评审、方案设计的人;
  • 希望和老板、业务方沟通 AI 方案时,能讲清楚利弊和边界。

作为初级开发者,你可以这样用:

  • 上完课之后,试着为你所在团队/部门写一页纸:

    • “我们这半年有哪些可行的 AI 应用机会”;
  • 即使你暂时做不了这些项目,这份文档也会:

    • 让你在团队里显得更“懂业务 + 懂技术”;
    • 成为你日后做晋升述职、项目立项时的素材库。

3)Google 的人工智能导论(Introduction to AI)

Google 的人工智能导论

链接:https://www.coursera.org/learn/google-introduction-to-ai

一句话理解:

从 Google 视角讲的“AI 是怎么从数据中学会东西的”,
重点在于让你弄清楚 能力与局限,而不是只会喊“好强大”。

课程亮点:

  • 是 Google AI Essentials 专项课程的一部分,结构清晰;
  • 讲清楚:

    • AI 如何从数据中学习;
    • 现实世界里的 能力边界 在哪里;
  • 特别强调 人的监督与参与

    • 反对“AI 自动跑就行”的想象;
  • 涉及:

    • 自然语言处理(NLP);
    • 大语言模型(LLM)应用;
    • 如何设计 AI 工作流;
  • 还有关于 创新和批判性思维 的部分,提醒你不要做“工具奴隶”。

适合谁:

  • 已经在使用 ChatGPT / Claude / Copilot 等工具的开发者;
  • 想更系统地理解“这些 LLM 背后大概在干嘛”;
  • 希望在做方案评估和技术选型时,有更多判断力的人。

对于初级开发者的用法:

  • 把课程里学到的 AI 工作流思想,套到你日常的一个小项目:

    • 例如:日志分析、简单问答机器人、文档检索助手;
  • 尝试用课程中的方法,画一个 “我们团队内部的 AI 工作流草图”

    • 这是你在团队里带节奏的好机会。

4)宾夕法尼亚大学的商业人工智能(AI For Business Specialization)

宾夕法尼亚大学的商业人工智能

链接:https://www.coursera.org/specializations/ai-for-business-wharton

一句话理解:

这是面向“想把 AI 用在商业上”的人,
帮你从营销、风控、人力等多个角度看 AI 如何改变业务。

课程亮点:

  • 这是一个 专项课程(Specialization),包括 4 门课;
  • 核心围绕:

    • 大数据、机器学习如何支撑商业决策;
    • AI 在 营销、用户生命周期、风险管理 等领域的落地;
  • 有专门讲 AI 伦理与治理 的内容;
  • HR 与人才管理模块很特别:

    • 讲机器学习如何用在招聘、绩效、员工发展;
  • 案例实操包括:欺诈检测、信用风险、个性化推荐等;
  • 结业证书来自沃顿商学院,对简历有加成。

适合谁:

  • 金融、电商、SaaS 等领域工作的工程师或产品人;
  • 正在向 技术负责人 / 业务负责人 方向发展的人;
  • 想系统理解“AI + 业务”的,尤其是对数据驱动决策感兴趣的人。

对初级开发者的意义:

  • 如果你现在还主要写 CRUD 业务代码,

    • 这门课会帮你看到系统背后的“生意逻辑”
  • 你可以从课里挑一两个案例,

    • 结合自己的行业,写一份“小型 AI 业务方案”,
    • 这类内容非常适合作为晋升材料或内部分享。

5)AWS 的机器学习与人工智能基础(Fundamentals of Machine Learning and Artificial Intelligence)

AWS 的机器学习与人工智能基础

链接:https://www.coursera.org/learn/fundamentals-of-machine-learning-and-artificial-intelligence

一句话理解:

以 AWS 生态为载体,把 AI、ML、深度学习和生成式 AI 串成一张“业务地图”。

课程亮点:

  • AWS 官方出品,内容围绕其云服务展开;
  • 重点帮助你厘清:

    • AI、机器学习、深度学习、生成式 AI 之间的关系;
    • 每一类问题适合什么样的技术路径;
  • 带你认识 AWS 上的各种 AI 服务:

    • 例如用于文本分析、图像识别、对话机器人等;
  • 课程不长,但信息密度很高;
  • 如果你目标岗位偏向 AWS 生态,这张证书的价值更高。

适合谁:

  • 公司已经在用 AWS,或者你考虑转向云相关岗位;
  • 希望把“AI 能力”和“云平台技能”结合起来的人;
  • 想理解:

    • “在真实公司里,AI 不只是写模型,还要跑在云上”。

对初级开发者的用法:

  • 结合课程内容,自己尝试在 AWS 上做一个小 demo:

    • 例如:一个简单的图像分类服务、文本情感分析 API;
  • 然后把“架构图 + 简短说明”写成一页纸:

    • 这是既能当作品集,又能说明你懂云的好材料。

6)IBM RAG 与智能体 AI 专业证书(IBM RAG and Agentic AI Professional Certificate)

IBM RAG 与智能体 AI 专业证书

链接:https://www.coursera.org/professional-certificates/ibm-rag-and-agentic-ai

一句话理解:

这是六门里最“硬核”的一套,
真正面向想在 RAG、多模态、Agent 等前沿方向 深耕技术栈 的人。

课程亮点:

  • 完整的 专业证书项目,包含 8 门课程;
  • 系统覆盖:

    • RAG(检索增强生成)流水线;
    • 多模态 AI 应用;
    • 自主 Agent 系统;
  • 会用到的一些关键工具:

    • LangChain、LangGraph、CrewAI、AG2;
    • 各类向量数据库(例如 Chroma);
    • Gradio 这类 Web UI 框架;
    • 以及 Model Context Protocol(MCP)等现代接口;
  • 课程里有不少项目:

    • 数据可视化 Agent;
    • 具备上下文理解能力的应用;
    • 能调用外部工具的智能体。

适合谁:

  • 已经有一定编程和 AI 基础,想往 AI 工程 / AI 平台 方向发展的人;
  • 希望将来做“AI 应用开发 / AI Agent 平台开发”的工程师;
  • 对 RAG、多模态、Agent 等前沿方向有强烈兴趣的人。

给初级开发者的提醒:

  • 这套课门槛相对较高,不建议当作你的第一门 AI 课;
  • 更好的路径是:

    • 先通过 1–3 门入门/业务向课程,
    • 确认自己真的对 AI 开发方向有兴趣,
    • 再用这套证书做“进阶突击”。

总结:不要指望一门课改变人生,但可以让它改变你学习 AI 的方式

再好的课程,也不会在几周之内把你变成“AI 专家”。

它们做不到的:

  • 立刻帮你找到一份梦幻工作;
  • 取代你在真实项目中的试错和踩坑;
  • 让你不写一行代码,就变成“AI 大师”。

但它们做得到的是:

  • 让你少在错误的课程上浪费时间和金钱;
  • 给你一组 清晰的概念框架可以展示的作品/证书
  • 帮你在团队内外,打开更多围绕 AI 的机会窗口。

对初级开发者来说,更重要的是心态的转变:

  • 不再迷信“最难的课就是最好的课”;
  • 也不再沉迷“最容易拿证的课”;
  • 而是根据自己的起点和目标,有意识地做出选课决策。
真正拉开差距的,往往不是“你选了哪一门课”,
而是“你能不能把学到的东西,变成一个又一个实际的小项目和分享”。

如果你愿意,可以从这 6 门课里只选 1 门

  • 认真上完;
  • 认真做完作业和项目;
  • 再用你自己的方式,复盘、分享、迭代。

这比一次性报十几门课,却一门都没上完,要有用得多。


Hi,我是俞凡,一名兼具技术深度与管理视野的技术管理者。曾就职于 Motorola,现任职于 Mavenir,多年带领技术团队,聚焦后端架构与云原生,持续关注 AI 等前沿方向,也关注人的成长,笃信持续学习的力量。在这里,我会分享技术实践与思考。欢迎关注公众号「DeepNoMind」,星标不迷路。也欢迎访问独立站 www.DeepNoMind.com,一起交流成长。

本文由mdnice多平台发布

如果说过去十年人工智能的主战场在「看懂世界」和「生成内容」,那么下一阶段的核心问题正在转向一个更具挑战性的命题:AI 如何真正进入物理世界,并在其中行动、学习与进化。 在与此相关的研究与讨论声中,具身智能一词频繁出现。

顾名思义,具身智能并非传统的机器人,而是强调 Agent 与环境交互在感知—决策—行动的闭环中形成智能。 在这一视角下,智能不再只存在于模型参数或推理能力中,而是深度嵌入到传感器、执行器、环境反馈与长期学习之中。机器人、自动驾驶、Agent 乃至通用人工智能(AGI)的讨论,都被纳入这一框架。

正因如此,具身智能成为近两年全球科技巨头与顶级研究机构高度关注的方向。特斯拉 CEO 埃隆·马斯克多次强调,人形机器人 Optimus 的意义不亚于自动驾驶;英伟达创始人黄仁勋将 Physical AI 视为继生成式 AI 之后的下一波浪潮,并持续加码机器人仿真与训练平台;李飞飞、Yann LeCun 等围绕空间智能、世界模型等细分领域持续产出高质量的前沿分析与成果;OpenAI、Google DeepMind、Meta 也在基于多模态模型、强化学习等技术探索智能体在真实或近真实环境中的学习能力。

在此背景下,具身智能不再只是单一模型或算法的问题,而逐渐演化为一个由数据集、仿真环境、基准任务与系统性方法共同构成的研究生态。为了帮助更多读者快速理解这一领域的关键脉络,本文将系统整理并推荐一批具身智能相关的高质量数据集、在线教程、论文,为进一步学习和研究提供参考。

数据集推荐

1

BC-Z 机器人学习数据集

预估大小: 32.28 GB

下载地址:https://go.hyper.ai/vkRel

这是一个由谷歌、 Everyday Robots 、加州大学伯克利分校和斯坦福大学共同开发的大规模机器人学习数据集,包含了超过 25,877 个不同的操作任务场景,涵盖了 100 种多样化的操作任务。这些任务通过专家级的远程操作和共享自主过程来收集,涉及 12 个机器人和 7 名不同的操作员,累计了 125 小时的机器人操作时间。数据集支持训练一个 7 自由度的多任务策略,该策略可以根据任务的语言描述或人类操作视频来调整,以执行特定的操作任务。

2

DexGraspVLA 机器人抓握数据集

预估大小: 7.29 GB

下载地址:https://go.hyper.ai/G37zQ

该数据集由 Psi-Robot 团队创建,包含 51 个人类演示数据样本,用于了解数据和格式,以及运行代码体验训练过程。其研究背景源于灵巧抓取在杂乱场景下的高成功率需求,特别是在未见过的物体、光照及背景组合下实现超过 90% 的成功率,此框架采用预训练的视觉-语言模型作为高层任务规划器,并学习基于扩散的策略作为低层行动控制器,其创新之处在于利用基础模型实现强大的泛化能力,并使用基于扩散的模仿学习获取灵巧行动。

3

EgoThink 第一人称视角下

视觉问答基准数据集

预估大小: 865.29 MB

下载地址: https://go.hyper.ai/5PsDP

该数据集是由清华大学提出的一个基于第一人称视角的视觉问答基准数据集,包含 700 张图像,涵盖了 6 个核心能力,细分为 12 个维度。其图像来源于 Ego4D 第一人称视频数据集的采样图片,为了确保数据的多样性,每个视频最多只采样 2 张图片。在数据集构建过程中,只选择了质量较高且能够清晰展现第一人称视角思维的图片。EgoThink 的应用领域广泛,特别是在评估和提升 VLMs 在第一人称视角任务中的性能,为未来的具身人工智能和机器人研究提供了宝贵的资源。

4

EQA 问答数据集

预估大小: 839.6 KB

下载地址:https://go.hyper.ai/8Uv1o

EQA 全称 Embodied Question Answering,是一个基于 House3D 的视觉问答数据集。在环境中任意位置的 agent 在得到一个问题后,能够自己在环境中寻找有用的信息并对该问题作出回答。比如:Q: 汽车是什么颜色的?为了回答这个问题,agent 必须首先通过智能导航来探索环境,从第一人称视角收集必要的视觉信息,然后回答问题:橙色。

5

OmniRetarget 全域机器人

运动重映射数据集

预估大小: 349.61 MB

下载地址: https://go.hyper.ai/IloBI

这是由亚马逊联合麻省理工学院、加利福尼亚大学伯克利分校等机构发布的一个用于类人机器人全身运动重映射的高质量轨迹数据集,包含 G1 仿人机器人与物体及复杂地形交互时的运动轨迹,涵盖机器人携物运动、地形行走及物体 – 地形混合交互三类场景。由于许可限制,公开的数据集中不包含 LAFAN1 的重映射版本,分为三个子集,总计约 4 小时运动轨迹数据,具体构成如下:

  • robot-object:机器人携带物体的运动轨迹,源自 OMOMO 3.0 数据;
  • robot-terrain:机器人在复杂地形上的运动轨迹,由内部 MoCap 采集生成,时长约 0.5 小时;
  • robot-object-terrain:同时涉及物体与地形交互的运动轨迹,时长约 0.5 小时。

此外,该数据集另含 models 目录,提供 URDF 、 SDF 与 OBJ 格式的可视化模型文件,用于展示而非训练。

查看更多高质量数据集:https://hyper.ai/datasets

教程推荐

具身智能(Embodied AI)的研究确实往往涉及多个模型和模块的组合,以实现对物理世界的感知、理解、规划和行动。其中便包含世界模型、推理模型,本文主要推荐以下两个最新开源的模型。

查看更多优质教程:https://hyper.ai/notebooks

1

HY-World 1.5:

交互式世界建模系统框架

HY-World 1.5(WorldPlay)是腾讯混元团队发布的首个具有长期几何一致性的开源实时交互世界模型。该模型通过流式视频扩散技术实现实时交互世界建模,解决了当前方法中速度与内存之间的权衡问题。

在线运行:https://go.hyper.ai/qsJVe

2

vLLM+Open WebUI 部署

Nemotron-3 Nano

Nemotron-3-Nano-30B-A3B-BF16 是由 NVIDIA 从零开始训练的一款大型语言模型(LLM),旨在作为一个同时适用于推理与非推理任务的统一模型,主要用于构建 AI 智能体系统、聊天机器人、RAG(检索增强生成)系统 以及其他各类 AI 应用。

在线运行:https://go.hyper.ai/6SK6n

论文推荐

1

RBench

论文题目 Rethinking Video Generation Model for the Embodied World

研究团队: 北京大学、字节跳动 Seed

查看论文:https://go.hyper.ai/k1oMT

研究简介:

该团队提出了一个全面的机器人视频生成评测基准 RBench,覆盖 5 类任务领域 和 4 种不同机器人形态,并通过一系列可复现的子指标,从任务层面的正确性和视觉保真度两个维度进行评估,具体包括结构一致性、物理合理性以及动作完整性等方面。对 25 个具有代表性的视频生成模型的评测结果显示,当前方法在生成符合物理真实感的机器人行为方面仍存在显著不足。此外,RBench 与人工评估之间的 Spearman 相关系数达到 0.96,验证了该基准在衡量模型质量方面的有效性。

此外,该研究还构建了 RoVid-X——目前规模最大的开源机器人视频生成数据集,包含 400 万条标注视频片段,覆盖数千种任务,并辅以全面的物理属性标注。

2

Being-H0.5

论文题目: Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

研究团队: BeingBeyond

查看论文:https://go.hyper.ai/pW24B

研究简介:

该团队提出了一个基础级的视觉-语言-动作(Vision-Language-Action,VLA)模型 Being-H0.5,旨在实现跨多种机器人平台的强泛化具身能力。现有的 VLA 模型往往受限于机器人形态差异大、可用数据稀缺等问题。针对这一挑战,其提出了一种以人为中心的学习范式,将人类交互轨迹视为物理交互领域的通用「母语」。

同时,该团队还发布了 UniHand-2.0,这是目前规模最大的具身预训练方案之一,涵盖 30 种不同机器人形态、超过 35,000 小时的多模态数据。在方法层面,其提出了一个统一动作空间(Unified Action Space),将不同机器人的异构控制方式映射到语义对齐的动作槽位中,使低资源机器人能够从人类数据以及高资源平台中快速迁移和习得技能。

3

Fast-ThinkAct

论文题目: Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

研究团队: 英伟达

查看论文: https://go.hyper.ai/q1h7j

研究简介:

该团队提出了一种高效的推理框架 Fast-ThinkAct,通过可语言化的潜在推理机制,在保证性能的同时实现更加紧凑的规划过程。Fast-ThinkAct 通过从教师模型中蒸馏潜在 CoT,学习高效推理能力,并在偏好引导目标函数的驱动下,对操作轨迹进行对齐,从而将语言层面的规划能力与视觉层面的规划能力共同迁移到具身控制中。

大量覆盖多种具身操作与推理任务的实验结果表明,Fast-ThinkAct 在保持长时序规划能力、少样本适应能力以及失败恢复能力的同时,相较于当前最先进的推理型 VLA 模型,推理延迟最高可降低 89.3%,并取得了显著的性能表现。

4

JudgeRLVR

论文题目: JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

研究团队: 北京大学、小米

查看论文: https://go.hyper.ai/2yCxp

研究简介:

该团队提出了一种「先判别、再生成」的两阶段训练范式 JudgeRLVR,在第一阶段,团队训练模型对具有可验证答案的解题响应进行判别与评估;在第二阶段,以该判别模型为初始化,使用标准的生成式 RLVR 对同一模型进行微调。

与在相同数学领域训练数据上使用的 Vanilla RLVR 相比,JudgeRLVR 在 Qwen3-30B-A3B 上实现了更优的质量–效率权衡:在域内数学任务上,平均准确率提升约 3.7 个百分点,同时平均生成长度减少 42%;在域外基准测试中,平均准确率提升约 4.5 个百分点,显示出更强的泛化能力。

5

**ACoT-VLA\
**

论文题目: ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

研究团队: 北京航空航天大学、AgiBot

查看论文:https://go.hyper.ai/2jMmY

研究简介:

该团队首先提出了 Action Chain-of-Thought(ACoT,动作思维链),将推理过程本身建模为一系列结构化的粗粒度动作意图,用于引导最终的策略生成,随后进一步提出 ACoT-VLA,一种将 ACoT 范式具体化的新型模型架构。

在具体设计上,其引入了两个互补的核心组件:显式动作推理器(Explicit Action Reasoner,EAR) 与 隐式动作推理器(Implicit Action Reasoner,IAR)。其中,EAR 以显式的动作级推理步骤形式,提出粗粒度的参考轨迹;而 IAR 则从多模态输入的内部表示中提取潜在的动作先验。二者共同构成 ACoT,并作为条件输入作用于下游动作头,从而实现具备落地约束的策略学习。

在真实世界与仿真环境中的大量实验结果表明,该方法展现出显著优势,在 LIBERO、LIBEROPlus 和 VLABench 基准上分别取得了 98.5%、84.1% 和 47.4% 的成绩。

查看最新论文:https://hyper.ai/papers