真实面经题目 · 原创解析
AI 产品满意度低的 bad case 如何定义、分层和处理?
这题考 AI 产品侧 badcase 运营和指标治理,回答要从满意度触发、问题分层、归因、优先级、短期止血和长期迭代闭环展开。
真实面经题目 · 原创解析
这题考 AI 产品侧 badcase 运营和指标治理,回答要从满意度触发、问题分层、归因、优先级、短期止血和长期迭代闭环展开。
AI 产品满意度低的 bad case,我会先从用户结果定义,而不是只从模型错误定义。触发来源可以是低评分、投诉、重复追问、放弃任务、人工转接、长时间无响应等。分层上先按用户意图和任务类型分,再按问题原因分成理解错、事实错、拒答错、幻觉、响应慢、格式不符合、体验不连贯、安全风险等;同时按影响面和严重度定优先级。处理流程是抽样复盘用户上下文,标注真实期望、模型输出、失败原因和责任模块,再分流给 prompt/RAG/模型/产品交互/审核策略等 owner。短期可以做规则兜底、提示优化、人工接管或高风险拦截;长期要沉淀评测集、改指标看板、做 A/B 实验,并验证满意度和任务完成率是否改善。
AI 产品的 badcase 不只是模型答错。只要用户目标没有达成,都可能是 badcase,包括答案慢、表达不符合预期、多轮对话绕圈、需要重复输入、风险内容漏过、或者用户不信任结果。这样定义更贴近产品满意度。
低满意度可以来自显式低分、投诉、点踩,也可以来自隐式行为,比如连续追问同一问题、复制率低、人工转接、任务中断、响应超时、重新生成多次。显式反馈少且有偏,所以需要结合行为指标和人工抽样。
先按用户意图、任务类型、用户群体或入口分层,避免把所有问题混在一起。再按失败原因标注,比如意图理解、知识召回、事实生成、格式遵循、多轮记忆、延迟、交互引导和安全策略。这样才能知道是产品流程问题还是模型能力问题。
不是所有 badcase 都同等处理。高优先级包括安全合规风险、影响核心任务完成、影响大流量入口、容易复现、修复成本低收益高的问题。低频且主观偏好强的问题可以进入观察池,不一定立即改模型。
短期可以用提示词、规则兜底、结果重排、人工接管、禁用高风险能力或优化错误提示。长期要建设评测集、训练或微调、改检索链路、优化交互流程和指标口径。产品经理要推动 owner 和节奏,而不是只把问题丢给算法。
修复后要看满意度、任务完成率、转人工率、重复追问率、延迟和风险率是否改善,并抽样检查是否引入新问题。badcase 还要沉淀到回归评测中,防止后续版本质量回退。
不一定。可能是答案慢、交互不符合预期、用户目标变化、结果不可执行,也可能是模型事实错误。需要结合上下文复盘。
至少包括用户意图、任务类型、失败原因、严重度、是否可复现、责任模块和建议修复方向。复杂场景可以增加用户群体和入口。
看影响用户数、是否核心链路、严重程度、复现概率、风险等级和修复收益成本比。安全和核心任务失败优先级最高。
用 A/B 实验或灰度对比,看显式满意度、任务完成率、重复追问率、转人工率和投诉率,同时人工复核关键样本。
负责定义指标、组织样本复盘、拆解原因、协调算法/工程/设计 owner、制定优先级,并验证修复是否真正改善用户 outcome。