从通用智能到场景实战:如何定义好用的「Voice Agent」?
在过去的一年里,Voice Agent 的开发者们经历了一场集体“祛魅”。一个被反复提及、逐渐成型的行业共识是:“Evals are back”(测评回归)。 这是因为行业遇到了共同的瓶颈:基础模型在通用学术榜单上卷得难解难分,一进到真实的业务电话里,表现往往不如人意。一个能写出精美诗歌的 Agent,可能听不懂带口音的“退款”请求,或者在用户情绪激动时不知道该如何安抚。这就带来一个更现实的问题:在充斥着打断、噪音和情绪波动的真实通话中,我们到底需要什么样的 Voice Agent? 最近,美团、声网 与 Xbench 三方联合构建了一个名为 VoiceAgentEval 的基准测试,主要解决现有测试方法的三个关键问题:数据集多样性不足、用户模拟不真实、评估指标不准确。 测试结果表明,大语言模型在外呼对话场景中已经达到了相当的基础能力,并展现出了各自的适用性。这说明,Voice Agent 的发展已经跨过了“参数为王”的阶段,进入了“场景适配”的新时期。 论文链接: 在人机对话场景中,用户不仅关注 Agent 是否提供了正确的反馈,如解答疑问、完成任务等;良好的、更像真人间交互体验也是非常重要的评估指标。 因此,区别于传统测评, VoiceAgentEval 不再执着于考察 Agent 到底“会不会说话”,而是同时从“有没有说对”和“说的好不好”两个层面来评估: 换句话说,这套评估不是在挑“谁最聪明”,而是看谁最适合在真实通话场景下干活。 在 VoiceAgentEval 中,这两类能力通过三个紧密衔接的设计进行评估: 基准构建(Benchmark) 从真实外呼业务中抽象出 6 大商业领域(客服、销售、招聘,金融风控、调研以及主动关怀)、 30 个子场景,包括银行投诉、电商退货、面试邀约等在真实世界里出现频率最高的情况。丰富了数据集的多样性与种类,覆盖业务中多样的场景,也就是现实中最容易出现问题的对话。 用户模拟器(User Simulator) 本次测评用 LLM 模拟了 5 个性格、背景、沟通风格都不相同的用户,结合 30 个真实业务的子场景,形成 150 种情况下的虚拟用户对话评估。这些虚拟用户有的态度友好,有的犹豫不决,甚至有的情绪抗拒。通过用户模拟器,输出每一个 Agent 在这 150 种真实场景中的 TFC 和 GIC 得分并加权计算出最终测试结果,能够有效的评估 Agent 在复杂场景下遵循任务流程与交互能力的平衡程度。 评估方法(Evaluation) VoiceAgentEval 通过文本和语音,对 Agent 进行 TFC 和 GIC 的双维度评估 在 TFC 层面,重点关注: 在 TIC 层面,评测关注的是: 也就是说,这套评测是在模拟一通真实业务电话,看看它能不能把事办完、还能不能让人愿意继续聊。 需要说明的是,VoiceAgentEval 并非在离线环境中对模型进行脚本化测试,而是基于声网在实时语音与对话式 AI 领域长期积累的工程能力,搭建出一套真实可运行的 Agent 架构来完成评测流程。因此,评测中的语音交互、流程切换与被打断后的恢复,均通过一条的真实 Voice Agent 链路完成,而非通过静态对话拼接。这也是 VoiceAgentEval 能够在实验条件下逼近真实业务通话复杂度的基础。 在这套实时语音交互评测环境中,测试结果并不意味着 Agent 的绝对高低,而是它们在特定外呼任务设计、用户模拟方式以及评分权重设定 下所呈现出的行为差异。 即便如此,这些差异依然为开发者理解模型在高度贴近真实外呼场景中的“行为倾向”提供了一张有价值的参考图谱: 不仅在外呼场景,随着 Voice Agent 越来越多地走向 AIoT、情感陪伴等日常生活场景,对交互的评测,也正在从“是否听清需求、是否能顺畅对话”,延伸到更底层的环境与语境理解能力。 在这一层面上,评测维度将不可避免地扩展到对掌声、敲门声等声学事件的感知,对所处环境的声学场景判断,以及对方言、间接表达和语境变化的识别。这些能力决定的,不只是一次对话能否完成,而是 Voice Agent 是否具备在真实环境中持续交互的基础条件。 这套评测体系的发布,其意义不在于分出高下,而在于展示了 Voice Agent 进化的必经之路:场景 + 技术的双重融合。 对于整个开发者社区而言,这传达了两个积极的信号: AI 的进化速度太快,单打独斗的时代已经过去。 我们解读这篇论文,是希望所有 Voice Agent 的从业者关注这种“场景化测评”的趋势。VoiceAgentEval 给出了外呼场景的一种答案,更像是一次示范:如何把一个具体业务,拆解成可被复用的评测单元。 当 Evals 从“纸上谈兵”回归到“实战演练”,当底层的实时交互框架逐步成熟,Voice Agent 才有可能真正走出实验室,接受千行百业的复杂检验。这扇门是否能被真正推开,最终取决于行业能否持续围绕具体场景,持续形成可被复用、可被讨论、也可被不断修正的共同度量。 参考链接 xbench 官网: 新闻稿: 声网对话式 AI 引擎: 阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
https://xbench.org/reports/zmbbhdtfc5ui5qx5xjgquusjVoiceAgentEval 在做什么
测评启示:没有最好,只有最合适
共同的目标:从探索走向落地
结语:共建行业的“度量衡”
https://xbench.org/VoiceAgentEval
https://xbench.org/reports/zmbbhdtfc5ui5qx5xjgquusj
https://www.shengwang.cn/ConversationalAI/

