PAI Physical AI Notebook详解8：Isaac Lab Arena 全身机器人机动+操控工作流

在之前的 PAI Physical AI 系列 Notebook中，我们已经介绍了基于 Isaac Lab 的强化学习训练、Newton 新物理引擎与Rerun轻量可视化等核心能力。然而，在实际的具身智能研发中，如何从仿真环境搭建到数据生成、策略训练再到闭环评估，完成一条完整的端到端工作流，仍是开发者面临的核心挑战。尤其是在复杂操作任务（如全身机动+操控）中，场景配置、数据扩增与策略后训练的衔接尤为关键。

Isaac Lab Arena 是基于 Isaac Lab 开发的任务集成系统，将完整任务划分为场景+具身智能体+任务物体的模块化系统，大幅扩增任务多样性并简化单个任务的创建。结合 NVIDIA GR00T N1.5 策略后训练能力，开发者可以在仿真环境中完成从示教数据扩增到策略微调再到闭环评估的全链路闭环。

本Notebook以 G1 箱体抓取与放置 任务为例，展示 Isaac Lab Arena 完整链路：

使用 Isaac Lab Arena 配置环境并通过回放 Demo 验证
使用 Isaac Lab Arena 配置 Mimic 环境进行演示扩增
使用 Isaac Lab Arena 进行 GR00T-N1.5 策略后训练
在 Isaac Sim 中进行策略闭环评估

在 PAI 的 Notebook Gallery 中，我们已经预置了这套的最佳实践：

https://gallery.pai-ml.com/#/preview/deepLearning/cv/isaac\_lab\_arena

1. 启动 DSW 与资源准备

通过 Notebook Gallery 启动 DSW，使用以下预编译镜像与实例规格：

类型	值
镜像（专网）	`dsw-registry-vpc.${regionId}.cr.aliyuncs.com/pai-training-algorithm/isaac-sim:isaaclab-arena-gr00t-vnc-v3-20260307`
镜像（公网）	`dsw-registry.${regionId}.cr.aliyuncs.com/pai-training-algorithm/isaac-sim:isaaclab-arena-gr00t-vnc-v3-20260307`
实例规格	ecs.gn8is.2xlarge（单张 48G 显存 L20 GPU，8核 CPU / 128G 内存）

需配置专有网络（VPC）用于局域网/公网访问及挂载外部存储，挂载到 /mnt/data

数据集与模型资源

资源	OSS 路径
小规模测试数据	`oss://pai-vision-data-${oss-region}/aigc-data/isaac/nb13/datasets/isaaclab_arena/locomanipulation_tutorial/arena_g1_loco_manipulation_dataset_generated_small.hdf5`
带标注人类示教数据	`...arena_g1_loco_manipulation_dataset_annotated.hdf5`
Mimic扩增后数据 (~21GB)	`...arena_g1_loco_manipulation_dataset_generated.hdf5`
已转换LeRobot数据	`...arena_g1_loco_manipulation_dataset_generated.zip`
GR00T-N1.5后训练模型	`oss://pai-vision-data-${oss-region}/aigc-data/isaac/nb13/models/isaaclab_arena/locomanipulation_tutorial/checkpoint-20000.zip`

区域映射

${regionId}	${oss-region}
cn-beijing	bj
cn-shanghai	sh
cn-hangzhou	hz2
cn-shenzhen	sz
ap-southeast-1	ap-southeast
cn-wulanchabu	wlcb

内网endpoint: oss-${regionId}-internal.aliyuncs.com
外网endpoint: oss-${regionId}.aliyuncs.com

2. 环境验证与基础配置

在 DSW 启动完成后，首先执行 Notebook 中的环境验证 Cell，确认运行状态与路径配置。

运行状态检查

确认 Isaac Lab Arena 环境已正确加载，检查关键依赖（Isaac Sim、Isaac Lab Arena、Mimic、GR00T）的版本与可用性。

路径与环境变量配置

DATASET_DIR=/datasets/isaaclab_arena/locomanipulation_tutorial
MODELS_DIR=/models/isaaclab_arena/locomanipulation_tutorial

OSS 下载工具

Notebook 中提供了便捷的 OSS 下载函数，自动根据 DSW 实例所在区域选择内网 endpoint 进行高速下载：

def download_from_oss(url, filename, save_dir):
    url_prefix = {
        "cn-shanghai": "http://pai-vision-data-sh.oss-cn-shanghai-internal.aliyuncs.com",
        "cn-hangzhou": "http://pai-vision-data-hz2.oss-cn-hangzhou-internal.aliyuncs.com",
        "cn-shenzhen": "http://pai-vision-data-sz.oss-cn-shenzhen-internal.aliyuncs.com",
        "cn-beijing": "http://pai-vision-data-bj.oss-cn-beijing-internal.aliyuncs.com",
        "ap-southeast-1": "http://pai-vision-data-ap-southeast.oss-ap-southeast-1-internal.aliyuncs.com",
        "cn-wulanchabu": "http://pai-vision-data-wlcb.oss-cn-wulanchabu-internal.aliyuncs.com"
    }
    dsw_region = os.environ.get("dsw_region")
    prefix = url_prefix.get(dsw_region, "http://pai-vision-data-sh.oss-cn-shanghai.aliyuncs.com")
    full_url = os.path.join(prefix, url, quote(filename))

VNC 可视化桌面（可选）

如需观察仿真过程的 GUI 画面，可通过 VNC 连接：

镜像中 TurboVNC 默认密码：123456
本地 SSH 端口转发：ssh -L 5900:localhost:5900
VNC 客户端连接：localhost:5900
可视化运行：在 VNC 桌面 terminal 中去掉 --headless 参数执行

3. 环境准备与回放验证

下载测试数据集

首先下载小规模测试数据集，用于验证仿真环境是否正确配置：

download_from_oss(
    "aigc-data/isaac/nb13/datasets/isaaclab_arena/locomanipulation_tutorial",
    "arena_g1_loco_manipulation_dataset_generated_small.hdf5",
    DATASET_DIR
)

回放 Demo 验证环境

使用 Isaac Lab Arena 回放任务 galileo_g1_locomanip_pick_and_place，验证环境配置是否正确。成功标准：仿真正常启动并跑完指定步数；相机与抓取/放置行为符合预期。

4. 数据生成

下载带标注人类示教数据

下载带标注的人类示教数据（HDF5格式），作为 Mimic 数据扩增的种子数据：

download_from_oss(
    "aigc-data/isaac/nb13/datasets/isaaclab_arena/locomanipulation_tutorial",
    "arena_g1_loco_manipulation_dataset_annotated.hdf5",
    DATASET_DIR
)

使用 Mimic 进行数据扩增

基于人类示教数据，使用 Isaac Lab Mimic 进行大规模演示数据集生成。Mimic 能够在保持任务语义一致的前提下，通过随机化场景配置（物体位置、光照、纹理等）快速扩增数据规模。

示例代码：

# 使用 Isaac Lab Mimic 生成数据集
# 生成 100 条演示数据，约需 1 小时
!/isaac-sim/python.sh isaaclab_arena/scripts/generate_dataset.py \
  --headless \
  --enable_cameras \
  --mimic \
  --input_file $DATASET_DIR/arena_g1_loco_manipulation_dataset_annotated.hdf5 \
  --output_file $DATASET_DIR/arena_g1_loco_manipulation_dataset_generated.hdf5 \
  --generation_num_trials 100 \
  --device cpu \
  galileo_g1_locomanip_pick_and_place \
  --object brown_box \
  --embodiment g1_wbc_pink

参数说明：

--mimic：启用 Mimic 数据扩增模式
--input_file：输入的人类示教数据文件
--output_file：输出的扩增数据文件
--generation_num_trials 100：生成 100 条演示轨迹
--device cpu：使用 CPU 进行仿真

Mimic 扩增后的数据集约 21GB，可根据实际需求调整扩增参数

（可选）回放生成数据

可对 Mimic 生成的数据进行回放验证，确保扩增数据的正确性与多样性。

示例代码：

# 回放生成后的数据集进行验证
!/isaac-sim/python.sh isaaclab_arena/scripts/replay_demos.py --headless \
  --device cpu \
  --enable_cameras \
  --dataset_file $DATASET_DIR/arena_g1_loco_manipulation_dataset_generated.hdf5 \
  galileo_g1_locomanip_pick_and_place \
  --object brown_box \
  --embodiment g1_wbc_pink

5. 策略后训练（GR00T-N1.5）

数据集快捷下载（可选）

为快速体验完整流程，可直接下载预生成数据跳过前序步骤：

预生成 HDF5：完整的 Mimic 扩增数据
已转换 LeRobot 数据：跳过 HDF5→LeRobot 转换步骤

HDF5 转 LeRobot 格式

使用 Isaac Lab Arena 自带脚本，将 HDF5 格式的演示数据转换为 GR00T 训练所需的 LeRobot 格式：

python scripts/convert_hdf5_to_lerobot.py \
    --input_path ${DATASET_DIR}/arena_g1_loco_manipulation_dataset_generated.hdf5 \
    --output_path ${DATASET_DIR}/lerobot_data

GR00T N1.5 微调训练

启动 GR00T N1.5 模型的微调训练，基于 LeRobot 格式的扩增数据进行策略后训练：

当前参数用于快速验证，正式实验需调整迭代步数、保存间隔与数据加载并发

训练完成后，checkpoint 将保存至 ${MODELS_DIR} 目录下。

6. 闭环策略推理与评估

预训练模型下载（可选）

如需跳过训练步骤，可直接下载预训练 checkpoint（checkpoint-20000.zip）：

download_from_oss(
    "aigc-data/isaac/nb13/models/isaaclab_arena/locomanipulation_tutorial",
    "checkpoint-20000.zip",
    MODELS_DIR
)

单环境评估（GUI）

使用配置文件 isaaclab_arena_gr00t/g1_locomanip_gr00t_closedloop_config.yaml，在单个仿真环境中进行闭环策略推理与可视化评估。可通过 VNC 观察 G1 机器人执行箱体搬运放置任务的完整过程。

示例代码：

# 运行单环境评估
!/isaac-sim/python.sh isaaclab_arena/examples/policy_runner.py --headless \
  --policy_type gr00t_closedloop \
  --policy_config_yaml_path isaaclab_arena_gr00t/g1_locomanip_gr00t_closedloop_config.yaml \
  --num_steps 1200 \
  --enable_cameras \
  galileo_g1_locomanip_pick_and_place \
  --object brown_box \
  --embodiment g1_wbc_joint

参数说明：

--policy_type gr00t_closedloop：使用 GR00T 闭环策略
--num_steps 1200：运行步数
--enable_cameras：启用相机渲染
去掉 --headless 参数可在 VNC 中观察 GUI 画面

并行环境评估（可选）

支持多环境并行评估，提高评估效率与统计显著性。

示例代码：

# 运行并行环境评估（5 个环境）
!/isaac-sim/python.sh isaaclab_arena/examples/policy_runner.py --headless \
  --policy_type gr00t_closedloop \
  --policy_config_yaml_path isaaclab_arena_gr00t/g1_locomanip_gr00t_closedloop_config.yaml \
  --num_steps 1200 \
  --num_envs 5 \
  --enable_cameras \
  --device cpu \
  --policy_device cuda \
  galileo_g1_locomanip_pick_and_place \
  --object brown_box \
  --embodiment g1_wbc_joint

参数说明：

--num_envs 5：并行运行 5 个仿真环境
--device cpu：仿真在 CPU 上运行
--policy_device cuda：策略推理在 GPU 上运行

7. 训练过程分析

使用 TensorBoard 分析训练 logs，观察 loss 曲线与评估成功率：

示例训练 1000 次迭代：loss 明显下降且平滑
评估显示相当的成功率，验证了 Mimic 数据扩增与 GR00T 后训练的有效性

8. 小结

PAI 全面支持 Isaac 工具链，本Notebook展示了在 PAI-DSW 单实例中闭环完成的完整工作流：

场景搭建 — Isaac Lab Arena 模块化创建场景，将任务拆分为场景+具身智能体+任务物体的灵活组合
数据扩增 — 复用 Isaac Lab Mimic 能力，基于人类示教数据短时间大规模生产多样化训练数据
策略后训练 — GR00T N1.5 微调，将仿真数据转化为可部署的策略模型
闭环评估 — Isaac Lab Arena 闭环评估，验证策略在仿真环境中的实际表现

大大简化了复杂的 Isaac Lab 任务配置流程，提高具身智能体的数据生产和训练效率。从场景搭建到策略评估，全链路在PAI-DSW中一站式完成，无需切换环境或额外配置。

未完待续

至此，PAI Physical AI Notebook 系列文档已覆盖从仿真环境搭建、数据生成、模型训练到闭环评估的完整技术栈：

序号	文档主题	核心内容
详解1	基于Isaac仿真的操作动作数据扩增与模仿学习	Isaac Sim 基础操作与数据采集流程
详解2	基于Cosmos世界模型的操作动作数据扩增与模仿学习	Cosmos 世界模型与数据增强
详解3	基于仿真的导航模型训练	移动机器人导航策略训练
详解4	基于仿真的GR00T-N1.5模型微调	GR00T 模型微调实践
详解5	基于Isaac-Cortex的软件在环验证	软件在环仿真验证
详解6	Isaac Lab分布式感知强化学习	分布式强化学习训练
详解7	Newton新物理引擎与Rerun轻量可视化	Newton 物理引擎与云原生可视化
详解8	Isaac Lab Arena 全身机器人机动+操控工作流	Isaac Lab Arena模型测评

本系列文档系统性地介绍了 PAI 平台对 NVIDIA Isaac 工具链的全面支持，涵盖：

仿真平台：Isaac Sim、Isaac Lab、Isaac Lab Arena
物理引擎：PhysX、Newton（Warp）
可视化方案：Omniverse、VNC、Rerun
数据生成：Mimic 数据扩增、Cosmos 世界模型
模型训练：GR00T-N1.5 策略后训练、强化学习
评估验证：闭环策略评估、软件在环验证

PAI Physical AI 系列将暂告一段落，感谢各位读者的关注与支持！后续我们将持续跟进 NVIDIA Isaac 生态的最新进展，推出更多实战教程与最佳实践。敬请期待！

PAI Physical AI Notebook详解8：Isaac Lab Arena 全身机器人机动+操控工作流

1. 启动 DSW 与资源准备

数据集与模型资源

区域映射

2. 环境验证与基础配置

运行状态检查

路径与环境变量配置

OSS 下载工具

VNC 可视化桌面（可选）

3. 环境准备与回放验证

下载测试数据集

回放 Demo 验证环境

4. 数据生成

下载带标注人类示教数据

使用 Mimic 进行数据扩增

（可选）回放生成数据

5. 策略后训练（GR00T-N1.5）

数据集快捷下载（可选）

HDF5 转 LeRobot 格式

GR00T N1.5 微调训练

6. 闭环策略推理与评估

预训练模型下载（可选）

单环境评估（GUI）

并行环境评估（可选）

7. 训练过程分析

8. 小结

未完待续

添加新评论

最新文章

最近回复

分类

归档

其它