标签 工具交互 下的文章

LLM Agent 的训练高度依赖多样的工具交互环境。然而,真实环境访问受限 ,LLM 模拟环境容易产生幻觉和不一致 ,而人工编写沙盒又面临成本高昂、难以扩展的难题 。
针对这一难题,我们提出了 EnvScaler —— 一个通过程序合成环境的自动化框架!利用 LLM 自动编写可执行的 Python 程序,构建成百上千个不同主题的交互式环境,并自动生成配套的任务和验证逻辑。
EnvScaler 由 SkelBuilder 和 ScenGenerator 两大核心组件组成,旨在实现环境与任务的全自动构建。
环境构建 (SkelBuilder):从文本挖掘到代码实现
主题挖掘与规划:从现有文本数据中挖掘环境主题,自动规划状态空间与工具集。
程序化实现:将规划转化为完整的 Python 程序代码。
质量保证:引入双 Agent 循环质检(Dual-Agent Inspection)机制,确保生成的环境代码质量过硬。
场景构建 (ScenGenerator):基于规则的可验证奖励
数据与任务生成:为每个环境生成对应的状态数据和挑战性任务。
验证逻辑生成:我们将任务拆解为检查列表(Checklist),并将每个检查点转换为针对环境最终状态的 Python 布尔函数。这意味着 RL 训练可以获得精准的、基于规则的、可验证的 Reward 信号,彻底告别模糊的文本反馈。
规模与实测效果:
利用 EnvScaler,我们合成了 191 个环境和约 7000 个场景。
应用到 Qwen3 模型的 SFT 与 RL 训练中,在 BFCL-v3 Multi-Turn、Tau-Bench 和 ACEBench-Agent 等基准测试上均取得了显著提升!
Qwen3-4B: BFCL-MT +12.62, Tau-Bench +7.62, ACEBench-Agent +15.27
Qwen3-8B: BFCL-MT +13.00, Tau-Bench +6.62, ACEBench-Agent +12.50

数据与代码现已全面开源!
arxiv:[2601.05808] EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis
GitHub:GitHub - RUC-NLPIR/EnvScaler: The official implementation of "EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis".
欢迎各位佬友尝鲜!
点点 star孩子将不胜感激!!


📌 转载信息
原作者:
QingChang
转载时间:
2026/1/15 18:24:30