小模型也能做 Agent？阿里最新的 AgenticQwen 论文讲了什么

上周四，阿里团队在 arXiv 上发布了关于 Agent 的论文：《AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use》。

这篇论文讨论了一个很实际的工程问题：在真实的工业场景中，Agent 往往不只是要会聊天，还要具备多步推理、调用工具的能力。但受限于工业生产环境对成本的控制和延迟的要求，不适合把所有任务都交由大模型来处理。

因此，阿里团队提出了 AgenticQwen，一组小型智能体语言模型，主要包括 AgenticQwen-8B 和 AgenticQwen-30B-A3B。

AgenticQwen 主要基于合成数据，并结合少量开源数据，通过多轮强化学习 RL 训练而成。整个训练框架结合了推理强化学习 (Reasoning RL) 与智能体强化学习 (Agentic RL) ，并引入"双数据飞轮 Dual Data FlyWheels"这一数据生成和训练迭代机制，让训练任务随着模型能力的提升，不断加大难度。

从论文定位上来看，AgenticQwen 并不是要证明小模型可以替代大模型，而是尝试回答一个具体问题：对于高频、相对标准化、可验证的工具使用任务，能否通过专门的训练机制，让较小模型获得更好的 Agent 行为能力。此外，论文明确区分了复杂开放性任务和标准化工具任务：对于高度专业的任务，大模型仍然是必要的；但对于订票、搜索、数据分析等更常见的工具使用场景，小模型具有降低服务成本和延迟的优势。

内容目录

本文主要介绍四个部分：

AgenticQwen 的核心问题：为什么工业 Agent 系统会需要小模型，以及这类场景和普通聊天有何区别。
双数据飞轮：论文提出推理飞轮 reasoning data flywheel 和智能体飞轮 agentic data flywheel，用来持续生成更难的训练样本。
实验结果：主要看 TAU-2、BFCL-V4 Multi-turn，以及工业 Agent 系统中的 WebWalker、XBench、GAIA 结果。
局限性：长上下文能力、Qwen 模型依赖，以及更"偏向"Qwen 自己，不一定能直接推广到其他模型。

论文的核心贡献

这篇论文的核心贡献可以概括为三点：

提出 AgenticQwen 系列小型 Agent 模型。这些模型使用合成数据和少量开源数据，通过多轮强化学习训练，目标是提升小模型在多步推理和工具调用任务中的表现。
论文提出了 Dual Data Flywheels，也就是「双数据飞轮」。推理飞轮负责从模型失败的样本中构造更难的、可被验证的推理问题；智能体飞轮负责把原本线性的工具调用流程，扩展成多分支行为树，让模型在训练中接触更多条件分支、环境变化和用户干扰，以便模拟真实的工业应用场景。
实验数据验证，论文在公开 benchmark 测试和工业 Agent 系统中评估模型效果。结果显示，AgenticQwen-8B 和 AgenticQwen-30B-A3B 相比基础 Qwen 模型的对应版本，性能有明显提升，并在部分任务上缩小了与 Qwen3-235B-A22B-Instruct 的差距。

title=

聊天模型和 Agent 模型的不同

和普通语言模型只要学习如何根据输入生成文本不同，Agent 模型还需要在特定环境中行动。比如，用户让模型订票、查询订单、生成分析报告，它就需要判断是否要调用工具、调用哪个工具，如何处理工具返回结果，以及是否需要继续追问用户获取更多信息。

论文认为，工业 Agent 系统中有不少任务其实是有固定流程的。它们未必需要大模型的全部能力，但很需要模型稳定地完成多步工具调用。AgenticQwen 的目标，就是针对这类高频、流程相对明确的任务，训练小模型稳定调用工具和执行任务的能力，而不是追求在所有开放式任务上超过大模型。

这一区别很重要。AgenticQwen 关注的不是"聊天能力"，而是在工具环境中模型表现出来的决策能力：模型是否能根据当前状态选择下一步动作，是否能在用户信息不完整或有误导时，依旧保证流程的正确。

双数据飞轮：让训练样本逐轮变难

论文认为，单纯地增加合成数据的数量并不一定能持续提升模型能力。一个原因是合成数据可能逐渐同质化，导致强化学习信号变弱。为了解决这个问题，论文提出了双数据飞轮，让训练数据随着模型表现动态更新。

第一个飞轮：Reasoning Data Flywheel

完成一轮推理强化学习后，系统会收集模型没有解出的题目，再基于这些失败样本生成更难的变体。论文中这一扩展主要用于数学任务，因为数学问题通常有唯一且容易验证的答案。新训练数据的生成方式，主要是先通过 self-instruct expansion 和 persona injection 生成更难、更丰富的题目，再通过一致性过滤控制数据质量。论文中，Qwen3-235B 会对候选题目求解三次，只有三次最终答案一致的样本才会保留。

第二个飞轮：Agentic Data Flywheel

这部分是针对工具使用的任务。初始任务通常是线性流程，比如："查询航班 → 预订 → 确认"。但在真实场景中，工具返回的不同结果会引出不同的分支：航班是否售罄、是否会延误，用户是否为金卡会员、是否满足平台补偿规则等等。论文通过行为树扩展，把单一路径变成多分支 workflow，并通过 branch-to-task inversion 反向生成能触发这些分支的新任务。

值得一提的是，论文还加入了对抗式模拟用户。例如，用户声称自己应该获得现金补偿，但实际情况是他只是普通会员，不符合获得现金补偿的条件。这时候，模型就需要调用工具核验他的会员状态，再根据平台补偿规则，选择正确的分支流程，而不是直接顺从用户请求。

训练环境：模拟用户、工具和奖励

AgenticQwen 的 Agentic RL 可以理解为是一个模拟任务环境。模型与模拟用户交互，调用模拟工具，并根据任务规则完成目标。论文中，用户和工具都由 Qwen3-235B 在 mock environment 中模拟；奖励由基于任务的 rubric 给出。任务会被拆成可验证的子目标，最终奖励根据完成子目标的比例落在 [0, 1] 范围内来确定。

这一设计的目标是把 Agent 任务从"输出正确格式"转向"完成可验证的子目标"。比如，在订票流程中，奖励可以检查模型是否正确地调用了更新订单状态的工具。这比单纯判断最终回答是否自然，更适合训练模型的工具调用和多步任务执行能力。

实验结果：公开工具环境 benchmark

论文在 TAU-2 和 BFCL-V4 Multi-turn 上评估模型。TAU-2 覆盖航空 Airline、电信 Telecom、零售 Retail 这三类场景，来评估模型在真实世界中的可靠性；BFCL-V4 Multi-turn 用来评估模型多轮调用工具的能力。

其中，TAU-2 包含约 300 个多轮任务，BFCL-V4 Multi-turn 包含约 800 个任务。

title=

论文 Table 1 显示了各模型的平均分，具体如下：

模型	TAU-2 / BFCL-V4 平均分
Qwen3-8B	23.8
AgenticQwen-8B	47.4
Qwen3-30B-A3B-Instruct	36.2
AgenticQwen-30B-A3B	50.2
Qwen3-235B-A22B-Instruct	52.0

这组结果可以说明两点：

AgenticQwen-8B 相比基础 Qwen3-8B 有明显提升：47.4 vs 23.8。
AgenticQwen-30B-A3B 在这组 benchmark 上接近 Qwen3-235B-A22B-Instruct（50.2 vs 52.0），但不能据此推断它在所有任务中的能力都接近 235B 模型。

论文还说明，AgenticQwen-30B-A3B 是 MoE 模型，每次推理激活约 3B 参数；AgenticQwen-8B 是 Dense 模型，推理时会激活更多参数。

多轮数据飞轮是否有效

title=

论文 Figure 2 展示了模型从 Round 0 到 Round 3 的训练变化。

数据表明 Qwen3-30B-A3B 和 Qwen3-8B 在 TAU-2 和 BFCL-V4 Multi-turn 的多个子任务上，表现能力有所提升。论文指出，三轮飞轮之后，模型的表现已经接近用于生成合成数据的强模型，因此没有继续扩展更多轮。

这部分结果说明，数据飞轮不只是训练前的数据构造方法，而是参与了多轮强化学习过程。每一轮模型暴露出的新问题，会继续推动下一轮数据扩展。

在工业 Agent 系统中的评估

论文还在一个工业 Agent 系统中，对 AgenticQwen 的表现进行了评估。该系统部署在云产品场景中，可以在沙箱环境中调用工具，完成生成折线图、总结一周工作文档等任务。

论文提到，AgenticQwen 已经接入该系统进行内部试点；当系统预测某个任务会落在模型能力范围内时，部分请求会自动路由给 AgenticQwen。

title=

论文 Figure 3 给了一个企业数据分析案例：用户要求分析 Q3 数据，Agent 需要通过 SQL 查询销售数据、解析用户的 JSON 日志，并对 PDF 格式的市场趋势报告做 RAG，最后生成 BI 简报。论文认为这个例子主要考察了模型的 schema 发现、跨数据源推理和动态工具编排能力。

搜索和数据分析的 benchmark

在工业系统的能力评估中，论文还报告了模型在 WebWalker、XBench 和 GAIA 这三个搜索 benchmark 中的结果。

title=

上表显示：

模型	WebWalker	XBench	GAIA
Qwen3-235B-A22B-Instruct	59.5	48.0	48.5
Qwen3-30B-A3B-Instruct	45.0	30.0	37.3
AgenticQwen-30B-A3B	52.5	47.0	41.7

其中，在 XBench 上，AgenticQwen-30B-A3B 从基础版 Qwen3-30B-A3B-Instruct 的 30.0 提升到 47.0，论文标注为 +17.0。

title=

论文还显示了 GAIA 上，各模型的平均端到端推理时间：

模型	平均推理时间（秒）
Qwen3-235B-A22B-Instruct	449.5
Qwen3-30B-A3B-Instruct	355.6
AgenticQwen-30B-A3B	344.1

作者推测，AgenticQwen-30B-A3B 耗时更少，可能是因为它经过了 Agent 训练之后，任务规划更有效，减少了一些不必要的工具调用或者交互步骤。这只是作者对结果作出的可能性解释，不是严格因果证明。

局限性

局限性：包括长上下文能力限制、对 Qwen 模型家族的依赖，以及模拟环境和真实系统之间的差距。

长上下文能力

AgenticQwen 主要关注推理和工具调用。对于高度开放、需要长上下文能力的 Agent 行为，小模型仍有困难。论文特别提到，deep-search 任务需要很长上下文，可能超过 8B 和 30B 模型的原生能力；在工业 benchmark 分析中，作者也指出 8B 和 30B 模型的 40K 长文上限可能会限制搜索任务的表现。

Qwen 模型依赖

训练过程比较依赖 Qwen 模型。Qwen 模型不只是被训练对象，还承担了数据生成器、模拟器和评估器的角色：生成新样本、模拟用户和工具环境，并根据任务规则给模型表现打分。论文认为这在成本效率上有优势，但也会造成结果更"偏向"Qwen 自己，不一定能直接推广、应用到其他模型。因此，作者提倡未来用其他模型来验证同一框架。

模拟环境和真实环境差距

最后，模拟环境和真实线上环境仍有差距。行为树和对抗式用户可以增加训练复杂度，但真实业务还需要权限控制、规则校验、日志追踪、异常处理和人工介入。

小结

AgenticQwen 这篇论文的核心思路是：通过专门的数据生成和强化学习流程，提升小模型在工具使用和多步任务执行中的表现。

它的关键设计是双数据飞轮。Reasoning Data Flywheel 从模型失败样本中生成更难的可验证推理题；Agentic Data Flywheel 把线性工具流程扩展成多分支行为树，让模型在训练中接触条件分支、环境变化和用户干扰。

从实验结果看，AgenticQwen-8B 从基础 Qwen3-8B 的 23.8 提升到 47.4；AgenticQwen-30B-A3B 达到 50.2，接近 Qwen3-235B-A22B-Instruct 的 52.0。在工业搜索与数据分析 benchmark 上，AgenticQwen-30B-A3B 也比基础 Qwen3-30B-A3B-Instruct 有提升。

因此，这篇论文更适合被理解为一条小模型 Agent 训练路线，而不是"小模型全面替代大模型"的证据。它说明，在任务可模拟、流程可验证、反馈可自动计算的场景中，小模型可以通过更有针对性的训练缩小与更大模型在特定 Agent 任务上的差距。

小模型也能做 Agent？阿里最新的 AgenticQwen 论文讲了什么

内容目录

论文的核心贡献

聊天模型和 Agent 模型的不同

双数据飞轮：让训练样本逐轮变难

第一个飞轮：Reasoning Data Flywheel

第二个飞轮：Agentic Data Flywheel

训练环境：模拟用户、工具和奖励

实验结果：公开工具环境 benchmark

多轮数据飞轮是否有效

在工业 Agent 系统中的评估

搜索和数据分析的 benchmark

局限性

长上下文能力

Qwen 模型依赖

模拟环境和真实环境差距

小结

添加新评论

最新文章

最近回复

分类

归档

其它