60 秒回答模板

我会先明确 AI 聊天产品服务的核心任务,再分层评估。第一层是用户是否完成任务,比如问题解决率、首轮解决率、多轮后解决率和转人工率;第二层是回答本身是否正确、有用、可理解,包括事实正确率、幻觉率、引用命中率、指令遵循和用户采纳率;第三层是对话体验,包括上下文连续性、澄清能力、追问成功率、语气一致性和打断恢复;第四层是产品指标,包括激活、使用频次、留存、复访、会话深度、满意度和负反馈;第五层是工程与安全,包括首 token 延迟、整体耗时、成本、敏感内容拦截、拒答准确性和隐私合规。最后要建立 badcase 闭环:采集低分会话,分类到知识缺失、检索失败、模型幻觉、意图误判、交互不清等原因,再用评测集、提示词、检索、模型和产品交互迭代。

考点 先说明 AI 聊天产品要完成的用户任
难度 真实面经题
回答目标 搭建 AI 聊天质量指标体系

深入解析

01

先定义聊天产品的目标任务

AI 聊天产品不能只看聊了多少轮,要先问它替用户完成什么任务。客服问答、知识助手、写作助理、陪伴对话和办公助理的好坏标准不同。面试里可以先说明评估对象:用户带着意图进入会话,产品要理解意图、给出可用答案,并在需要时澄清、追问或转交其他流程。

02

任务完成是北极星指标

最核心的是用户问题是否被解决,可以看问题解决率、首轮解决率、多轮解决率、转人工率、重复提问率、会话后是否继续搜索同一问题等。对于有明确动作的聊天产品,还可以看生成内容被复制、采纳、编辑后使用、创建任务或触发工具的比例。

03

回答质量要拆成可评测维度

回答质量不等于用户点赞。需要拆成事实正确性、相关性、完整性、指令遵循、可读性、引用或证据一致性、幻觉率和拒答合理性。离线可以用人工标注、黄金集、LLM-as-judge 辅助和规则校验;线上要结合用户采纳、追问、点踩、投诉和人工复核。

04

对话体验关注多轮连续性

AI 聊天和单次问答不同,必须看上下文是否记得住、能否处理省略指代、是否会主动澄清、是否能纠正前一轮误解、是否在长对话中保持口径一致。指标上可以看多轮任务成功率、澄清后解决率、用户重复输入率、无效追问率和会话中断率。

05

产品和系统指标要一起看

产品侧看激活率、会话频次、留存、复访、满意度、负反馈和用户分层表现;系统侧看首 token 延迟、完整响应耗时、超时率、失败率、单次会话成本和高峰期稳定性。AI 聊天产品经常在质量、速度和成本之间取舍,不能只优化一个指标。

06

用 badcase 闭环驱动迭代

上线后要把点踩、低满意度、转人工、重复提问和人工抽检样本沉淀成 badcase,并按原因分类:意图识别错、知识缺失、检索召回差、上下文丢失、模型幻觉、安全拒答错误或交互入口不清。每类问题对应不同修复手段,最后回到离线评测和线上 A/B 验证。

易错点

  • 只回答 DAU、留存、满意度,缺少 AI 回答质量和任务完成指标。
  • 把单轮问答指标直接套到多轮聊天,忽略上下文连续性和澄清能力。
  • 只看用户点赞,没考虑点赞偏差、沉默用户和负反馈样本。
  • 只讲模型准确率,不讲延迟、成本、稳定性和安全拒答。
  • 没有区分不同聊天场景,导致指标体系过于泛化。
  • 采集 badcase 后没有分类和回归验证,无法指导具体迭代。

面试官追问

如果用户点赞率很高但问题解决率低,你会怎么判断原因?

先拆分点赞用户和未解决用户的会话,判断点赞是否来自表达友好、娱乐性或短期满足。如果解决率低,要回看任务定义、答案事实性、工具调用、上下文理解和后续转化,不能把点赞当作唯一目标。

AI 聊天产品的离线评测集应该怎么构造?

先按核心场景抽样,比如事实问答、写作、办公、客服和多轮任务;每类样本都要有标准答案、评分 Rubric、难度标签和安全标签。再加入线上 badcase,保留一部分 holdout,避免只优化固定题库。

如何评估多轮对话中的上下文记忆是否有效?

可以设计指代、省略、纠错、约束保持和跨轮目标推进的样本,看模型是否记住必要上下文、是否正确澄清、是否能在用户修正后恢复。线上则看重复解释率、无效追问率和多轮任务完成率。

LLM-as-judge 可以直接替代人工评测吗?为什么?

不能直接替代。LLM-as-judge 适合做规模化初筛和趋势监控,但对主观体验、安全边界、复杂业务事实和评分一致性仍需人工校准。更稳的做法是让它辅助人工标注,并定期用人工样本评估 judge 偏差。

首轮解决率和多轮解决率哪个更重要,取决于什么场景?

客服、搜索类场景通常更看重首轮解决率,因为用户希望快速拿到答案;复杂创作、咨询和规划类场景可能允许多轮澄清,此时多轮解决率和最终满意度更重要。关键是和用户任务复杂度匹配。

如果提升回答质量导致延迟和成本上升,你会怎么做取舍?

先明确质量提升带来的业务收益是否覆盖成本。如果收益明确,可以分层使用更强模型;如果成本压力大,可以用路由、缓存、检索增强、小模型预处理、异步生成和高价值用户优先等方式折中。