标签工具交互下的文章

时间: 2026-01-15

LLM Agent 的训练高度依赖多样的工具交互环境。然而，真实环境访问受限，LLM 模拟环境容易产生幻觉和不一致，而人工编写沙盒又面临成本高昂、难以扩展的难题。
针对这一难题，我们提出了 EnvScaler —— 一个通过程序合成环境的自动化框架！利用 LLM 自动编写可执行的 Python 程序，构建成百上千个不同主题的交互式环境，并自动生成配套的任务和验证逻辑。
EnvScaler 由 SkelBuilder 和 ScenGenerator 两大核心组件组成，旨在实现环境与任务的全自动构建。
环境构建 (SkelBuilder)：从文本挖掘到代码实现
主题挖掘与规划：从现有文本数据中挖掘环境主题，自动规划状态空间与工具集。
程序化实现：将规划转化为完整的 Python 程序代码。
质量保证：引入双 Agent 循环质检（Dual-Agent Inspection）机制，确保生成的环境代码质量过硬。
场景构建 (ScenGenerator)：基于规则的可验证奖励
数据与任务生成：为每个环境生成对应的状态数据和挑战性任务。
验证逻辑生成：我们将任务拆解为检查列表（Checklist），并将每个检查点转换为针对环境最终状态的 Python 布尔函数。这意味着 RL 训练可以获得精准的、基于规则的、可验证的 Reward 信号，彻底告别模糊的文本反馈。
规模与实测效果：
利用 EnvScaler，我们合成了 191 个环境和约 7000 个场景。
应用到 Qwen3 模型的 SFT 与 RL 训练中，在 BFCL-v3 Multi-Turn、Tau-Bench 和 ACEBench-Agent 等基准测试上均取得了显著提升！
Qwen3-4B: BFCL-MT +12.62, Tau-Bench +7.62, ACEBench-Agent +15.27
Qwen3-8B: BFCL-MT +13.00, Tau-Bench +6.62, ACEBench-Agent +12.50

数据与代码现已全面开源！
arxiv：[2601.05808] EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis
GitHub：GitHub - RUC-NLPIR/EnvScaler: The official implementation of "EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis".
欢迎各位佬友尝鲜！
点点 star孩子将不胜感激！！

📌 转载信息

来源：
https://linux.do/t/topic/1462721

原作者：
QingChang

转载时间：
2026/1/15 18:24:30

标签工具交互下的文章

宣传我们的论文EnvScaler：程序化合成 agent 训练环境

最新文章

最近回复

分类

归档

其它

标签 工具交互 下的文章

宣传我们的论文EnvScaler：程序化合成 agent 训练环境

最新文章

最近回复

分类

归档

其它

标签工具交互下的文章