上周四,阿里团队在 arXiv 上发布了关于 Agent 的论文:《AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use》。

这篇论文讨论了一个很实际的工程问题:在真实的工业场景中,Agent 往往不只是要会聊天,还要具备多步推理、调用工具的能力。但受限于工业生产环境对成本的控制和延迟的要求,不适合把所有任务都交由大模型来处理。

因此,阿里团队提出了 AgenticQwen,一组小型智能体语言模型,主要包括 AgenticQwen-8B 和 AgenticQwen-30B-A3B。

AgenticQwen 主要基于合成数据,并结合少量开源数据,通过多轮强化学习 RL 训练而成。整个训练框架结合了推理强化学习 (Reasoning RL) 与智能体强化学习 (Agentic RL) ,并引入"双数据飞轮 Dual Data FlyWheels"这一数据生成和训练迭代机制,让训练任务随着模型能力的提升,不断加大难度。

从论文定位上来看,AgenticQwen 并不是要证明小模型可以替代大模型,而是尝试回答一个具体问题:对于高频、相对标准化、可验证的工具使用任务,能否通过专门的训练机制,让较小模型获得更好的 Agent 行为能力。此外,论文明确区分了复杂开放性任务和标准化工具任务:对于高度专业的任务,大模型仍然是必要的;但对于订票、搜索、数据分析等更常见的工具使用场景,小模型具有降低服务成本和延迟的优势。

内容目录

本文主要介绍四个部分:

  • AgenticQwen 的核心问题:为什么工业 Agent 系统会需要小模型,以及这类场景和普通聊天有何区别。
  • 双数据飞轮:论文提出推理飞轮 reasoning data flywheel 和智能体飞轮 agentic data flywheel,用来持续生成更难的训练样本。
  • 实验结果:主要看 TAU-2、BFCL-V4 Multi-turn,以及工业 Agent 系统中的 WebWalker、XBench、GAIA 结果。
  • 局限性:长上下文能力、Qwen 模型依赖,以及更"偏向"Qwen 自己,不一定能直接推广到其他模型。

论文的核心贡献

这篇论文的核心贡献可以概括为三点:

  1. 提出 AgenticQwen 系列小型 Agent 模型。这些模型使用合成数据和少量开源数据,通过多轮强化学习训练,目标是提升小模型在多步推理和工具调用任务中的表现。
  2. 论文提出了 Dual Data Flywheels,也就是「双数据飞轮」。推理飞轮负责从模型失败的样本中构造更难的、可被验证的推理问题;智能体飞轮负责把原本线性的工具调用流程,扩展成多分支行为树,让模型在训练中接触更多条件分支、环境变化和用户干扰,以便模拟真实的工业应用场景。
  3. 实验数据验证,论文在公开 benchmark 测试和工业 Agent 系统中评估模型效果。结果显示,AgenticQwen-8B 和 AgenticQwen-30B-A3B 相比基础 Qwen 模型的对应版本,性能有明显提升,并在部分任务上缩小了与 Qwen3-235B-A22B-Instruct 的差距。

 title=

聊天模型和 Agent 模型的不同

和普通语言模型只要学习如何根据输入生成文本不同,Agent 模型还需要在特定环境中行动。比如,用户让模型订票、查询订单、生成分析报告,它就需要判断是否要调用工具、调用哪个工具,如何处理工具返回结果,以及是否需要继续追问用户获取更多信息。

论文认为,工业 Agent 系统中有不少任务其实是有固定流程的。它们未必需要大模型的全部能力,但很需要模型稳定地完成多步工具调用。AgenticQwen 的目标,就是针对这类高频、流程相对明确的任务,训练小模型稳定调用工具和执行任务的能力,而不是追求在所有开放式任务上超过大模型。

这一区别很重要。AgenticQwen 关注的不是"聊天能力",而是在工具环境中模型表现出来的决策能力:模型是否能根据当前状态选择下一步动作,是否能在用户信息不完整或有误导时,依旧保证流程的正确。

双数据飞轮:让训练样本逐轮变难

论文认为,单纯地增加合成数据的数量并不一定能持续提升模型能力。一个原因是合成数据可能逐渐同质化,导致强化学习信号变弱。为了解决这个问题,论文提出了双数据飞轮,让训练数据随着模型表现动态更新。

第一个飞轮:Reasoning Data Flywheel

完成一轮推理强化学习后,系统会收集模型没有解出的题目,再基于这些失败样本生成更难的变体。论文中这一扩展主要用于数学任务,因为数学问题通常有唯一且容易验证的答案。新训练数据的生成方式,主要是先通过 self-instruct expansion 和 persona injection 生成更难、更丰富的题目,再通过一致性过滤控制数据质量。论文中,Qwen3-235B 会对候选题目求解三次,只有三次最终答案一致的样本才会保留。

第二个飞轮:Agentic Data Flywheel

这部分是针对工具使用的任务。初始任务通常是线性流程,比如:"查询航班 → 预订 → 确认"。但在真实场景中,工具返回的不同结果会引出不同的分支:航班是否售罄、是否会延误,用户是否为金卡会员、是否满足平台补偿规则等等。论文通过行为树扩展,把单一路径变成多分支 workflow,并通过 branch-to-task inversion 反向生成能触发这些分支的新任务。

值得一提的是,论文还加入了对抗式模拟用户。例如,用户声称自己应该获得现金补偿,但实际情况是他只是普通会员,不符合获得现金补偿的条件。这时候,模型就需要调用工具核验他的会员状态,再根据平台补偿规则,选择正确的分支流程,而不是直接顺从用户请求。

训练环境:模拟用户、工具和奖励

AgenticQwen 的 Agentic RL 可以理解为是一个模拟任务环境。模型与模拟用户交互,调用模拟工具,并根据任务规则完成目标。论文中,用户和工具都由 Qwen3-235B 在 mock environment 中模拟;奖励由基于任务的 rubric 给出。任务会被拆成可验证的子目标,最终奖励根据完成子目标的比例落在 [0, 1] 范围内来确定。

这一设计的目标是把 Agent 任务从"输出正确格式"转向"完成可验证的子目标"。比如,在订票流程中,奖励可以检查模型是否正确地调用了更新订单状态的工具。这比单纯判断最终回答是否自然,更适合训练模型的工具调用和多步任务执行能力。

实验结果:公开工具环境 benchmark

论文在 TAU-2 和 BFCL-V4 Multi-turn 上评估模型。TAU-2 覆盖航空 Airline、电信 Telecom、零售 Retail 这三类场景,来评估模型在真实世界中的可靠性;BFCL-V4 Multi-turn 用来评估模型多轮调用工具的能力。

其中,TAU-2 包含约 300 个多轮任务,BFCL-V4 Multi-turn 包含约 800 个任务。

 title=

论文 Table 1 显示了各模型的平均分,具体如下:

模型TAU-2 / BFCL-V4 平均分
Qwen3-8B23.8
AgenticQwen-8B47.4
Qwen3-30B-A3B-Instruct36.2
AgenticQwen-30B-A3B50.2
Qwen3-235B-A22B-Instruct52.0

这组结果可以说明两点:

  1. AgenticQwen-8B 相比基础 Qwen3-8B 有明显提升:47.4 vs 23.8。
  2. AgenticQwen-30B-A3B 在这组 benchmark 上接近 Qwen3-235B-A22B-Instruct(50.2 vs 52.0),但不能据此推断它在所有任务中的能力都接近 235B 模型。

论文还说明,AgenticQwen-30B-A3B 是 MoE 模型,每次推理激活约 3B 参数;AgenticQwen-8B 是 Dense 模型,推理时会激活更多参数。

多轮数据飞轮是否有效

 title=

论文 Figure 2 展示了模型从 Round 0 到 Round 3 的训练变化。

数据表明 Qwen3-30B-A3B 和 Qwen3-8B 在 TAU-2 和 BFCL-V4 Multi-turn 的多个子任务上,表现能力有所提升。论文指出,三轮飞轮之后,模型的表现已经接近用于生成合成数据的强模型,因此没有继续扩展更多轮。

这部分结果说明,数据飞轮不只是训练前的数据构造方法,而是参与了多轮强化学习过程。每一轮模型暴露出的新问题,会继续推动下一轮数据扩展。

在工业 Agent 系统中的评估

论文还在一个工业 Agent 系统中,对 AgenticQwen 的表现进行了评估。该系统部署在云产品场景中,可以在沙箱环境中调用工具,完成生成折线图、总结一周工作文档等任务。

论文提到,AgenticQwen 已经接入该系统进行内部试点;当系统预测某个任务会落在模型能力范围内时,部分请求会自动路由给 AgenticQwen。

 title=

论文 Figure 3 给了一个企业数据分析案例:用户要求分析 Q3 数据,Agent 需要通过 SQL 查询销售数据、解析用户的 JSON 日志,并对 PDF 格式的市场趋势报告做 RAG,最后生成 BI 简报。论文认为这个例子主要考察了模型的 schema 发现、跨数据源推理和动态工具编排能力。

搜索和数据分析的 benchmark

在工业系统的能力评估中,论文还报告了模型在 WebWalker、XBench 和 GAIA 这三个搜索 benchmark 中的结果。

 title=

上表显示:

模型WebWalkerXBenchGAIA
Qwen3-235B-A22B-Instruct59.548.048.5
Qwen3-30B-A3B-Instruct45.030.037.3
AgenticQwen-30B-A3B52.547.041.7

其中,在 XBench 上,AgenticQwen-30B-A3B 从基础版 Qwen3-30B-A3B-Instruct 的 30.0 提升到 47.0,论文标注为 +17.0。

 title=

论文还显示了 GAIA 上,各模型的平均端到端推理时间:

模型平均推理时间(秒)
Qwen3-235B-A22B-Instruct449.5
Qwen3-30B-A3B-Instruct355.6
AgenticQwen-30B-A3B344.1

作者推测,AgenticQwen-30B-A3B 耗时更少,可能是因为它经过了 Agent 训练之后,任务规划更有效,减少了一些不必要的工具调用或者交互步骤。这只是作者对结果作出的可能性解释,不是严格因果证明。

局限性

局限性:包括长上下文能力限制、对 Qwen 模型家族的依赖,以及模拟环境和真实系统之间的差距。

长上下文能力

AgenticQwen 主要关注推理和工具调用。对于高度开放、需要长上下文能力的 Agent 行为,小模型仍有困难。论文特别提到,deep-search 任务需要很长上下文,可能超过 8B 和 30B 模型的原生能力;在工业 benchmark 分析中,作者也指出 8B 和 30B 模型的 40K 长文上限可能会限制搜索任务的表现。

Qwen 模型依赖

训练过程比较依赖 Qwen 模型。Qwen 模型不只是被训练对象,还承担了数据生成器、模拟器和评估器的角色:生成新样本、模拟用户和工具环境,并根据任务规则给模型表现打分。论文认为这在成本效率上有优势,但也会造成结果更"偏向"Qwen 自己,不一定能直接推广、应用到其他模型。因此,作者提倡未来用其他模型来验证同一框架。

模拟环境和真实环境差距

最后,模拟环境和真实线上环境仍有差距。行为树和对抗式用户可以增加训练复杂度,但真实业务还需要权限控制、规则校验、日志追踪、异常处理和人工介入。

小结

AgenticQwen 这篇论文的核心思路是:通过专门的数据生成和强化学习流程,提升小模型在工具使用和多步任务执行中的表现。

它的关键设计是双数据飞轮。Reasoning Data Flywheel 从模型失败样本中生成更难的可验证推理题;Agentic Data Flywheel 把线性工具流程扩展成多分支行为树,让模型在训练中接触条件分支、环境变化和用户干扰。

从实验结果看,AgenticQwen-8B 从基础 Qwen3-8B 的 23.8 提升到 47.4;AgenticQwen-30B-A3B 达到 50.2,接近 Qwen3-235B-A22B-Instruct 的 52.0。在工业搜索与数据分析 benchmark 上,AgenticQwen-30B-A3B 也比基础 Qwen3-30B-A3B-Instruct 有提升。

因此,这篇论文更适合被理解为一条小模型 Agent 训练路线,而不是"小模型全面替代大模型"的证据。它说明,在任务可模拟、流程可验证、反馈可自动计算的场景中,小模型可以通过更有针对性的训练缩小与更大模型在特定 Agent 任务上的差距。

标签: none

添加新评论