从通用智能到场景实战：如何定义好用的「Voice Agent」？

在过去的一年里，Voice Agent 的开发者们经历了一场集体“祛魅”。一个被反复提及、逐渐成型的行业共识是：“Evals are back”（测评回归）。

这是因为行业遇到了共同的瓶颈：基础模型在通用学术榜单上卷得难解难分，一进到真实的业务电话里，表现往往不如人意。一个能写出精美诗歌的 Agent，可能听不懂带口音的“退款”请求，或者在用户情绪激动时不知道该如何安抚。这就带来一个更现实的问题：在充斥着打断、噪音和情绪波动的真实通话中，我们到底需要什么样的 Voice Agent？

最近，美团、声网与 Xbench 三方联合构建了一个名为 VoiceAgentEval 的基准测试，主要解决现有测试方法的三个关键问题：数据集多样性不足、用户模拟不真实、评估指标不准确。

测试结果表明，大语言模型在外呼对话场景中已经达到了相当的基础能力，并展现出了各自的适用性。这说明，Voice Agent 的发展已经跨过了“参数为王”的阶段，进入了“场景适配”的新时期。

论文链接：
https://xbench.org/reports/zmbbhdtfc5ui5qx5xjgquusj

VoiceAgentEval 在做什么

在人机对话场景中，用户不仅关注 Agent 是否提供了正确的反馈，如解答疑问、完成任务等；良好的、更像真人间交互体验也是非常重要的评估指标。

因此，区别于传统测评， VoiceAgentEval 不再执着于考察 Agent 到底“会不会说话”，而是同时从“有没有说对”和“说的好不好”两个层面来评估：

任务流程遵循度（Task Flow Compliance，TFC）： AI 客服是否按照业务流程办事，是否真正解决用户的问题
一般交互能力（General Interaction Capability，GIC）： AI 客服的响应是否自然，回复内容是否与谈话主题相关，是否能响应用户的负面情绪等。

换句话说，这套评估不是在挑“谁最聪明”，而是看谁最适合在真实通话场景下干活。

在 VoiceAgentEval 中，这两类能力通过三个紧密衔接的设计进行评估：

基准构建（Benchmark）

从真实外呼业务中抽象出 6 大商业领域（客服、销售、招聘，金融风控、调研以及主动关怀）、 30 个子场景，包括银行投诉、电商退货、面试邀约等在真实世界里出现频率最高的情况。丰富了数据集的多样性与种类，覆盖业务中多样的场景，也就是现实中最容易出现问题的对话。

用户模拟器（User Simulator）

本次测评用 LLM 模拟了 5 个性格、背景、沟通风格都不相同的用户，结合 30 个真实业务的子场景，形成 150 种情况下的虚拟用户对话评估。这些虚拟用户有的态度友好，有的犹豫不决，甚至有的情绪抗拒。通过用户模拟器，输出每一个 Agent 在这 150 种真实场景中的 TFC 和 GIC 得分并加权计算出最终测试结果，能够有效的评估 Agent 在复杂场景下遵循任务流程与交互能力的平衡程度。

评估方法（Evaluation）

VoiceAgentEval 通过文本和语音，对 Agent 进行 TFC 和 GIC 的双维度评估

在 TFC 层面，重点关注：

按业务流程推进对话
最终把事情“办成”

在 TIC 层面，评测关注的是：

在口音、噪音或打断下，是否还能听清关键需求
回应是否自然、简洁、不制造额外负担
在被打岔、被质疑时，是否还能保持对话连贯

也就是说，这套评测是在模拟一通真实业务电话，看看它能不能把事办完、还能不能让人愿意继续聊。

需要说明的是，VoiceAgentEval 并非在离线环境中对模型进行脚本化测试，而是基于声网在实时语音与对话式 AI 领域长期积累的工程能力，搭建出一套真实可运行的 Agent 架构来完成评测流程。因此，评测中的语音交互、流程切换与被打断后的恢复，均通过一条的真实 Voice Agent 链路完成，而非通过静态对话拼接。这也是 VoiceAgentEval 能够在实验条件下逼近真实业务通话复杂度的基础。

测评启示：没有最好，只有最合适

在这套实时语音交互评测环境中，测试结果并不意味着 Agent 的绝对高低，而是它们在特定外呼任务设计、用户模拟方式以及评分权重设定 下所呈现出的行为差异。

即便如此，这些差异依然为开发者理解模型在高度贴近真实外呼场景中的“行为倾向”提供了一张有价值的参考图谱：

均衡的“多面手”—— 在“完成办事流程”和“闲聊”之间取得了极佳的平衡。它们既能按流程推进业务，又能顺滑地接住客户的闲聊。如果你需要一个适应性强的通用型 Agent，它们值得优先考虑。
严谨的“执行者”—— 流程合规性得分高但交互能力相对低一些。就像一个处理金融业务、一丝不苟的银行柜员，绝不随意发挥，但也绝不出错。对于合规性要求极高的严肃场景，它是安全的选择。
温情的“倾听者”—— 在交互体验上表现优异，极善于安抚沟通，提供情绪价值。如果你的场景是心理咨询或陪伴，它可能比那些“死磕流程”的模型更懂用户的心。

不仅在外呼场景，随着 Voice Agent 越来越多地走向 AIoT、情感陪伴等日常生活场景，对交互的评测，也正在从“是否听清需求、是否能顺畅对话”，延伸到更底层的环境与语境理解能力。

在这一层面上，评测维度将不可避免地扩展到对掌声、敲门声等声学事件的感知，对所处环境的声学场景判断，以及对方言、间接表达和语境变化的识别。这些能力决定的，不只是一次对话能否完成，而是 Voice Agent 是否具备在真实环境中持续交互的基础条件。