真实面经题目 · 原创解析

RAG 产品出现 badcase 时,如何从知识库、检索、生成和反馈闭环提高效果?

RAG badcase 优化不能只调 Prompt,而要把问题拆成知识、检索、生成、反馈四层定位:先按严重度和归因分类,再用日志还原证据链,最后通过知识治理、召回重排、上下文组织、生成约束和用户反馈回流形成持续迭代闭环。

出现于:美团 · 产品

60 秒回答模板

我会先建立 badcase 分层体系,把问题分成无答案、检索不到、检索到了但排序靠后、上下文冲突、模型误读、幻觉生成、权限错误、时效性错误等类型,并按业务影响、用户规模、可恢复性定义优先级。接着看完整链路日志,包括用户 query、改写结果、召回文档、重排分数、最终上下文、模型输出、引用证据和用户反馈,判断根因是在知识库、检索、生成还是产品交互。优化上,知识库侧做文档清洗、切分粒度、元数据、版本和权限治理;检索侧做 query rewrite、混合检索、召回扩展、重排和阈值控制;生成侧做证据约束、引用校验、拒答策略和 Prompt 分层;反馈侧把用户点踩、人工标注、客服修正和线上日志回流到评测集。最后用离线回归集和线上指标验证,比如 answer accuracy、citation correctness、hit rate、MRR、拒答准确率、用户追问率和人工转接率,确保不是局部修复造成其他场景退化。

考点 定位优先于调参
难度 真实面经题
回答目标 让面试官听到的是一个可落地的 RAG 产品质量体系:能分类、能归因、能分层优化、能回归验证,并能通过反馈闭环持续降低 badcase。

深入解析

01

先分类和定级,避免盲目优化

RAG badcase 要先从现象变成可运营的问题资产。常见分类包括知识缺失、知识过期、切分丢语义、检索召回失败、重排错误、上下文过长被截断、证据冲突、生成幻觉、权限泄露、拒答不当等。严重度可以按业务损失、用户可见性、是否涉及合规和是否可被人工兜底划分。这样产品经理才能决定先修高频低风险体验问题,还是优先处理低频但高风险的合规和错误决策问题。

02

用日志和证据链定位根因

定位时不能只看最终答案,要还原 query 到 answer 的全链路。关键日志包括原始问题、用户画像或场景、query rewrite、召回候选、重排分数、最终上下文、Prompt、模型输出、引用片段、拒答原因、用户反馈和人工判定。比如答案错了但正确文档已在上下文里,更多是生成或 Prompt 问题;正确文档被召回但排在后面,是重排问题;知识库根本没有或权限不可见,则应回到知识治理。

03

分层优化知识库、检索和生成

知识库侧要做清洗去重、结构化标题、统一术语、合理切分、父子 chunk、元数据标签、版本管理和权限校验。检索侧可用关键词加向量的混合召回、query 改写、同义词扩展、多路召回、cross-encoder 重排、业务规则加权和动态 topK。生成侧要让模型基于证据回答,要求引用来源,遇到证据不足时拒答或追问,并对冲突信息做优先级规则,例如最新版本、官方文档、权限内文档优先。

04

建立反馈回流和回归评测

badcase 解决不是一次性项目,而是闭环机制。用户反馈、客服纠错、人工审核和线上失败日志要沉淀为标注样本,进入回归评测集。每次改知识库、检索策略或 Prompt 都要跑回归,观察准确率、召回率、引用正确率、无答案拒答率、幻觉率、首轮解决率、追问率、转人工率和延迟成本。只有离线指标提升且线上 A/B 证明体验改善,才算真正解决。

易错点

  • 只说优化 Prompt,没有拆解知识库、检索、重排、生成和反馈链路。
  • 只追求答案更像人话,忽略引用正确性、权限控制和拒答策略。
  • 没有建立 badcase 分类和严重度,导致优化优先级混乱。
  • 缺少链路日志,无法判断正确文档是否被召回、是否进入上下文。
  • 把用户反馈直接用于更新知识或模型,忽略审核、去噪和回归验证。
  • 只看离线准确率,不看线上转人工率、追问率、延迟和成本。

面试官追问

用户反馈答案错了,但日志显示召回到了正确文档,怎么办?

这说明知识库和召回不一定是主因,应重点看上下文组织和生成阶段。可能是正确片段位置太靠后、上下文太长被模型忽略、Prompt 没有要求严格引用、多个片段存在冲突,或模型没有理解表格和规则。处理方式是提升正确证据排序、压缩上下文、增加引用约束、让模型先抽取证据再回答,并加入基于引用一致性的校验。

如何判断 badcase 是知识库问题还是检索问题?

先看知识库中是否存在正确答案且用户有权限访问。如果不存在,就是知识缺失、过期或权限配置问题;如果存在但没有进入召回候选,是召回问题;如果召回到了但排名很低,是重排问题;如果进入最终上下文但回答仍错,是生成或上下文组织问题。这个判断必须依赖链路日志和人工标注,而不是只看最终输出。

RAG 优化有哪些核心指标?

离线指标包括 Recall@K、MRR、nDCG、answer accuracy、citation correctness、faithfulness、拒答准确率和幻觉率。线上指标包括首轮解决率、用户追问率、点踩率、人工转接率、平均处理时长、响应延迟和成本。不同业务要设护栏指标,例如权限错误率和高风险问题错误率必须优先控制。

用户反馈如何回流,避免噪声影响系统?

用户反馈不能直接进入训练或知识库,应先做分层过滤。高置信反馈可以进入 badcase 池,结合日志自动归因;低置信反馈需要人工抽检;涉及事实修正的要走知识审核和版本发布;涉及表达偏好的可以用于 Prompt 或偏好优化。回流后还要跑回归集,避免修复一个问题引入新的退化。