小爱同学这类 AI 语音助手的大模型评测方案应如何围绕场景划分和用户满足率设计？｜拼多多产品面经解析

60 秒回答模板

我会先按小爱同学这类语音助手的真实使用场景划分评测对象，而不是只问大模型通用能力。常见场景可以分为设备控制、信息查询、日程提醒、闲聊陪伴、多轮任务、模糊指令、儿童或家庭成员表达、噪声环境和拒答安全。每类场景都要建立离线评测集，包括语音转写文本、上下文、期望意图、可接受答案、不可接受答案和风险标签。核心指标分三层：第一是理解是否正确，包括 ASR 后文本是否被正确识别、意图和槽位是否正确；第二是回答是否满足用户，包括任务完成率、一次满足率、澄清成功率、无效回答率和用户满足率；第三是体验和安全，包括响应时延、多轮轮次、打断恢复、拒答合理性和敏感内容。线上满足率不能只靠点赞，可以结合显式反馈、是否继续追问、是否重复提问、是否改用手动操作、是否放弃。评测要有固定周期，用 badcase 反哺提示词、知识库、场景策略和模型版本。

考点 场景树

难度 真实面经题

回答目标 设计语音助手评测方案

深入解析

先按语音场景划分评测范围

语音助手不是通用聊天框，评测必须按入口和任务划分。可以区分设备控制、信息查询、日程提醒、内容播放、闲聊、多轮任务、模糊指令、噪声环境和安全拒答。不同场景的成功标准不同，不能用一个总分覆盖全部。

离线评测集要保留上下文和标准答案

离线集应包含用户原始语音转写、设备或会话上下文、期望意图、槽位、可接受答案、不可接受答案和风险标签。语音助手还要覆盖口语化、省略、方言或噪声转写错误等样本。这样才能判断大模型是在理解、推理还是回复策略上失败。

用户满足率要定义清楚分母和成功标准

用户满足率可以定义为在有效请求中，用户目标被完成或答案被接受的比例。分母要排除无效唤醒、无法听清、非目标噪声等边界情况，也可以单独统计。成功标准要按场景定，例如设备控制看是否执行正确，查询看答案是否有用，闲聊看是否自然且安全。

线上信号要结合显式和隐式反馈

线上不能只依赖点赞点踩。可以结合用户是否继续追问、是否重复同一问题、是否改用手机或手动入口、是否取消任务、是否中断会话、是否在多轮后完成目标。显式反馈适合解释原因，隐式行为适合覆盖更大流量。

评测要形成版本迭代机制

评测方案要规定更新节奏、回归集、badcase 分层和上线门槛。每次模型、提示词、知识库或场景策略变更，都要比较核心场景满足率、失败率、时延和安全护栏。线上新 badcase 再回流到离线集，避免只优化旧问题。

易错点

把语音助手评测答成通用 LLM 排行榜，没有场景划分。
只看文本答案准确率，忽略 ASR、设备执行、多轮和时延。
没有定义用户满足率分母，导致误唤醒和有效请求混在一起。
只依赖点赞点踩，没有结合重复提问、放弃和手动改用等隐式信号。
没有 badcase 回流和版本回归，评测不能支撑持续迭代。

面试官追问

语音助手评测为什么不能只看大模型问答准确率？

因为语音助手还涉及唤醒、ASR、上下文、设备状态、执行动作、时延和多轮体验，用户满足不等于文本答案正确。

用户满足率的分母怎么定？

应先定义有效用户请求，再把无效唤醒、环境噪声、无法听清等边界单独统计，否则满足率会被不同问题混淆。

没有显式反馈时怎么估计满足？

可以看用户是否重复提问、继续追问、改用其他入口、取消任务、手动完成或快速结束会话，再抽样人工复核。

离线评测集多久更新一次？

固定回归集要稳定保留，新 badcase 应按周期补充。高频失败、上线新能力和风险场景要优先进入下一轮评测。