小模型也能做 Agent?阿里最新的 AgenticQwen 论文讲了什么
上周四,阿里团队在 arXiv 上发布了关于 Agent 的论文:《AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use》。 这篇论文讨论了一个很实际的工程问题:在真实的工业场景中,Agent 往往不只是要会聊天,还要具备多步推理、调用工具的能力。但受限于工业生产环境对成本的控制和延迟的要求,不适合把所有任务都交由大模型来处理。 因此,阿里团队提出了 AgenticQwen,一组小型智能体语言模型,主要包括 AgenticQwen-8B 和 AgenticQwen-30B-A3B。 AgenticQwen 主要基于合成数据,并结合少量开源数据,通过多轮强化学习 RL 训练而成。整个训练框架结合了推理强化学习 (Reasoning RL) 与智能体强化学习 (Agentic RL) ,并引入"双数据飞轮 Dual Data FlyWheels"这一数据生成和训练迭代机制,让训练任务随着模型能力的提升,不断加大难度。 从论文定位上来看,AgenticQwen 并不是要证明小模型可以替代大模型,而是尝试回答一个具体问题:对于高频、相对标准化、可验证的工具使用任务,能否通过专门的训练机制,让较小模型获得更好的 Agent 行为能力。此外,论文明确区分了复杂开放性任务和标准化工具任务:对于高度专业的任务,大模型仍然是必要的;但对于订票、搜索、数据分析等更常见的工具使用场景,小模型具有降低服务成本和延迟的优势。 本文主要介绍四个部分: 这篇论文的核心贡献可以概括为三点: 和普通语言模型只要学习如何根据输入生成文本不同,Agent 模型还需要在特定环境中行动。比如,用户让模型订票、查询订单、生成分析报告,它就需要判断是否要调用工具、调用哪个工具,如何处理工具返回结果,以及是否需要继续追问用户获取更多信息。 论文认为,工业 Agent 系统中有不少任务其实是有固定流程的。它们未必需要大模型的全部能力,但很需要模型稳定地完成多步工具调用。AgenticQwen 的目标,就是针对这类高频、流程相对明确的任务,训练小模型稳定调用工具和执行任务的能力,而不是追求在所有开放式任务上超过大模型。 这一区别很重要。AgenticQwen 关注的不是"聊天能力",而是在工具环境中模型表现出来的决策能力:模型是否能根据当前状态选择下一步动作,是否能在用户信息不完整或有误导时,依旧保证流程的正确。 论文认为,单纯地增加合成数据的数量并不一定能持续提升模型能力。一个原因是合成数据可能逐渐同质化,导致强化学习信号变弱。为了解决这个问题,论文提出了双数据飞轮,让训练数据随着模型表现动态更新。 完成一轮推理强化学习后,系统会收集模型没有解出的题目,再基于这些失败样本生成更难的变体。论文中这一扩展主要用于数学任务,因为数学问题通常有唯一且容易验证的答案。新训练数据的生成方式,主要是先通过 self-instruct expansion 和 persona injection 生成更难、更丰富的题目,再通过一致性过滤控制数据质量。论文中,Qwen3-235B 会对候选题目求解三次,只有三次最终答案一致的样本才会保留。 这部分是针对工具使用的任务。初始任务通常是线性流程,比如:"查询航班 → 预订 → 确认"。但在真实场景中,工具返回的不同结果会引出不同的分支:航班是否售罄、是否会延误,用户是否为金卡会员、是否满足平台补偿规则等等。论文通过行为树扩展,把单一路径变成多分支 workflow,并通过 branch-to-task inversion 反向生成能触发这些分支的新任务。 值得一提的是,论文还加入了对抗式模拟用户。例如,用户声称自己应该获得现金补偿,但实际情况是他只是普通会员,不符合获得现金补偿的条件。这时候,模型就需要调用工具核验他的会员状态,再根据平台补偿规则,选择正确的分支流程,而不是直接顺从用户请求。 AgenticQwen 的 Agentic RL 可以理解为是一个模拟任务环境。模型与模拟用户交互,调用模拟工具,并根据任务规则完成目标。论文中,用户和工具都由 Qwen3-235B 在 mock environment 中模拟;奖励由基于任务的 rubric 给出。任务会被拆成可验证的子目标,最终奖励根据完成子目标的比例落在 [0, 1] 范围内来确定。 这一设计的目标是把 Agent 任务从"输出正确格式"转向"完成可验证的子目标"。比如,在订票流程中,奖励可以检查模型是否正确地调用了更新订单状态的工具。这比单纯判断最终回答是否自然,更适合训练模型的工具调用和多步任务执行能力。 论文在 TAU-2 和 BFCL-V4 Multi-turn 上评估模型。TAU-2 覆盖航空 Airline、电信 Telecom、零售 Retail 这三类场景,来评估模型在真实世界中的可靠性;BFCL-V4 Multi-turn 用来评估模型多轮调用工具的能力。 其中,TAU-2 包含约 300 个多轮任务,BFCL-V4 Multi-turn 包含约 800 个任务。 论文 Table 1 显示了各模型的平均分,具体如下: 这组结果可以说明两点: 论文还说明,AgenticQwen-30B-A3B 是 MoE 模型,每次推理激活约 3B 参数;AgenticQwen-8B 是 Dense 模型,推理时会激活更多参数。 论文 Figure 2 展示了模型从 Round 0 到 Round 3 的训练变化。 数据表明 Qwen3-30B-A3B 和 Qwen3-8B 在 TAU-2 和 BFCL-V4 Multi-turn 的多个子任务上,表现能力有所提升。论文指出,三轮飞轮之后,模型的表现已经接近用于生成合成数据的强模型,因此没有继续扩展更多轮。 这部分结果说明,数据飞轮不只是训练前的数据构造方法,而是参与了多轮强化学习过程。每一轮模型暴露出的新问题,会继续推动下一轮数据扩展。 论文还在一个工业 Agent 系统中,对 AgenticQwen 的表现进行了评估。该系统部署在云产品场景中,可以在沙箱环境中调用工具,完成生成折线图、总结一周工作文档等任务。 论文提到,AgenticQwen 已经接入该系统进行内部试点;当系统预测某个任务会落在模型能力范围内时,部分请求会自动路由给 AgenticQwen。 论文 Figure 3 给了一个企业数据分析案例:用户要求分析 Q3 数据,Agent 需要通过 SQL 查询销售数据、解析用户的 JSON 日志,并对 PDF 格式的市场趋势报告做 RAG,最后生成 BI 简报。论文认为这个例子主要考察了模型的 schema 发现、跨数据源推理和动态工具编排能力。 在工业系统的能力评估中,论文还报告了模型在 WebWalker、XBench 和 GAIA 这三个搜索 benchmark 中的结果。 上表显示: 其中,在 XBench 上,AgenticQwen-30B-A3B 从基础版 Qwen3-30B-A3B-Instruct 的 30.0 提升到 47.0,论文标注为 +17.0。 论文还显示了 GAIA 上,各模型的平均端到端推理时间: 作者推测,AgenticQwen-30B-A3B 耗时更少,可能是因为它经过了 Agent 训练之后,任务规划更有效,减少了一些不必要的工具调用或者交互步骤。这只是作者对结果作出的可能性解释,不是严格因果证明。 局限性:包括长上下文能力限制、对 Qwen 模型家族的依赖,以及模拟环境和真实系统之间的差距。 AgenticQwen 主要关注推理和工具调用。对于高度开放、需要长上下文能力的 Agent 行为,小模型仍有困难。论文特别提到,deep-search 任务需要很长上下文,可能超过 8B 和 30B 模型的原生能力;在工业 benchmark 分析中,作者也指出 8B 和 30B 模型的 40K 长文上限可能会限制搜索任务的表现。 训练过程比较依赖 Qwen 模型。Qwen 模型不只是被训练对象,还承担了数据生成器、模拟器和评估器的角色:生成新样本、模拟用户和工具环境,并根据任务规则给模型表现打分。论文认为这在成本效率上有优势,但也会造成结果更"偏向"Qwen 自己,不一定能直接推广、应用到其他模型。因此,作者提倡未来用其他模型来验证同一框架。 最后,模拟环境和真实线上环境仍有差距。行为树和对抗式用户可以增加训练复杂度,但真实业务还需要权限控制、规则校验、日志追踪、异常处理和人工介入。 AgenticQwen 这篇论文的核心思路是:通过专门的数据生成和强化学习流程,提升小模型在工具使用和多步任务执行中的表现。 它的关键设计是双数据飞轮。Reasoning Data Flywheel 从模型失败样本中生成更难的可验证推理题;Agentic Data Flywheel 把线性工具流程扩展成多分支行为树,让模型在训练中接触条件分支、环境变化和用户干扰。 从实验结果看,AgenticQwen-8B 从基础 Qwen3-8B 的 23.8 提升到 47.4;AgenticQwen-30B-A3B 达到 50.2,接近 Qwen3-235B-A22B-Instruct 的 52.0。在工业搜索与数据分析 benchmark 上,AgenticQwen-30B-A3B 也比基础 Qwen3-30B-A3B-Instruct 有提升。 因此,这篇论文更适合被理解为一条小模型 Agent 训练路线,而不是"小模型全面替代大模型"的证据。它说明,在任务可模拟、流程可验证、反馈可自动计算的场景中,小模型可以通过更有针对性的训练缩小与更大模型在特定 Agent 任务上的差距。内容目录
论文的核心贡献

聊天模型和 Agent 模型的不同
双数据飞轮:让训练样本逐轮变难
第一个飞轮:Reasoning Data Flywheel
第二个飞轮:Agentic Data Flywheel
训练环境:模拟用户、工具和奖励
实验结果:公开工具环境 benchmark

模型 TAU-2 / BFCL-V4 平均分 Qwen3-8B 23.8 AgenticQwen-8B 47.4 Qwen3-30B-A3B-Instruct 36.2 AgenticQwen-30B-A3B 50.2 Qwen3-235B-A22B-Instruct 52.0 多轮数据飞轮是否有效

在工业 Agent 系统中的评估

搜索和数据分析的 benchmark

模型 WebWalker XBench GAIA Qwen3-235B-A22B-Instruct 59.5 48.0 48.5 Qwen3-30B-A3B-Instruct 45.0 30.0 37.3 AgenticQwen-30B-A3B 52.5 47.0 41.7 
模型 平均推理时间(秒) Qwen3-235B-A22B-Instruct 449.5 Qwen3-30B-A3B-Instruct 355.6 AgenticQwen-30B-A3B 344.1 局限性
长上下文能力
Qwen 模型依赖
模拟环境和真实环境差距
小结