RAG 产品出现 badcase 时，如何从知识库、检索、生成和反馈闭环提高效果？｜美团产品面经解析

60 秒回答模板

我会先建立 badcase 分层体系，把问题分成无答案、检索不到、检索到了但排序靠后、上下文冲突、模型误读、幻觉生成、权限错误、时效性错误等类型，并按业务影响、用户规模、可恢复性定义优先级。接着看完整链路日志，包括用户 query、改写结果、召回文档、重排分数、最终上下文、模型输出、引用证据和用户反馈，判断根因是在知识库、检索、生成还是产品交互。优化上，知识库侧做文档清洗、切分粒度、元数据、版本和权限治理；检索侧做 query rewrite、混合检索、召回扩展、重排和阈值控制；生成侧做证据约束、引用校验、拒答策略和 Prompt 分层；反馈侧把用户点踩、人工标注、客服修正和线上日志回流到评测集。最后用离线回归集和线上指标验证，比如 answer accuracy、citation correctness、hit rate、MRR、拒答准确率、用户追问率和人工转接率，确保不是局部修复造成其他场景退化。

考点 定位优先于调参

难度 真实面经题

回答目标 让面试官听到的是一个可落地的 RAG 产品质量体系：能分类、能归因、能分层优化、能回归验证，并能通过反馈闭环持续降低 badcase。

深入解析

先分类和定级，避免盲目优化

RAG badcase 要先从现象变成可运营的问题资产。常见分类包括知识缺失、知识过期、切分丢语义、检索召回失败、重排错误、上下文过长被截断、证据冲突、生成幻觉、权限泄露、拒答不当等。严重度可以按业务损失、用户可见性、是否涉及合规和是否可被人工兜底划分。这样产品经理才能决定先修高频低风险体验问题，还是优先处理低频但高风险的合规和错误决策问题。

用日志和证据链定位根因

定位时不能只看最终答案，要还原 query 到 answer 的全链路。关键日志包括原始问题、用户画像或场景、query rewrite、召回候选、重排分数、最终上下文、Prompt、模型输出、引用片段、拒答原因、用户反馈和人工判定。比如答案错了但正确文档已在上下文里，更多是生成或 Prompt 问题；正确文档被召回但排在后面，是重排问题；知识库根本没有或权限不可见，则应回到知识治理。

分层优化知识库、检索和生成

知识库侧要做清洗去重、结构化标题、统一术语、合理切分、父子 chunk、元数据标签、版本管理和权限校验。检索侧可用关键词加向量的混合召回、query 改写、同义词扩展、多路召回、cross-encoder 重排、业务规则加权和动态 topK。生成侧要让模型基于证据回答，要求引用来源，遇到证据不足时拒答或追问，并对冲突信息做优先级规则，例如最新版本、官方文档、权限内文档优先。

建立反馈回流和回归评测

badcase 解决不是一次性项目，而是闭环机制。用户反馈、客服纠错、人工审核和线上失败日志要沉淀为标注样本，进入回归评测集。每次改知识库、检索策略或 Prompt 都要跑回归，观察准确率、召回率、引用正确率、无答案拒答率、幻觉率、首轮解决率、追问率、转人工率和延迟成本。只有离线指标提升且线上 A/B 证明体验改善，才算真正解决。

易错点

只说优化 Prompt，没有拆解知识库、检索、重排、生成和反馈链路。
只追求答案更像人话，忽略引用正确性、权限控制和拒答策略。
没有建立 badcase 分类和严重度，导致优化优先级混乱。
缺少链路日志，无法判断正确文档是否被召回、是否进入上下文。
把用户反馈直接用于更新知识或模型，忽略审核、去噪和回归验证。
只看离线准确率，不看线上转人工率、追问率、延迟和成本。

面试官追问

用户反馈答案错了，但日志显示召回到了正确文档，怎么办？

这说明知识库和召回不一定是主因，应重点看上下文组织和生成阶段。可能是正确片段位置太靠后、上下文太长被模型忽略、Prompt 没有要求严格引用、多个片段存在冲突，或模型没有理解表格和规则。处理方式是提升正确证据排序、压缩上下文、增加引用约束、让模型先抽取证据再回答，并加入基于引用一致性的校验。

如何判断 badcase 是知识库问题还是检索问题？

先看知识库中是否存在正确答案且用户有权限访问。如果不存在，就是知识缺失、过期或权限配置问题；如果存在但没有进入召回候选，是召回问题；如果召回到了但排名很低，是重排问题；如果进入最终上下文但回答仍错，是生成或上下文组织问题。这个判断必须依赖链路日志和人工标注，而不是只看最终输出。

RAG 优化有哪些核心指标？

离线指标包括 Recall@K、MRR、nDCG、answer accuracy、citation correctness、faithfulness、拒答准确率和幻觉率。线上指标包括首轮解决率、用户追问率、点踩率、人工转接率、平均处理时长、响应延迟和成本。不同业务要设护栏指标，例如权限错误率和高风险问题错误率必须优先控制。

用户反馈如何回流，避免噪声影响系统？

用户反馈不能直接进入训练或知识库，应先做分层过滤。高置信反馈可以进入 badcase 池，结合日志自动归因；低置信反馈需要人工抽检；涉及事实修正的要走知识审核和版本发布；涉及表达偏好的可以用于 Prompt 或偏好优化。回流后还要跑回归集，避免修复一个问题引入新的退化。