真实面经题目 · 原创解析
RAG 中如何评估 Rerank 的有效性,应该看哪些离线指标和线上指标?
这题考的是候选人能否把 rerank 评估从“看排序模型分数高不高”讲成完整闭环:离线看相关性排序和证据覆盖,线上看答案质量、用户行为、延迟成本和系统稳定性,并注意 rerank 可能改善排序但损害整体 RAG 体验。
真实面经题目 · 原创解析
这题考的是候选人能否把 rerank 评估从“看排序模型分数高不高”讲成完整闭环:离线看相关性排序和证据覆盖,线上看答案质量、用户行为、延迟成本和系统稳定性,并注意 rerank 可能改善排序但损害整体 RAG 体验。
评估 RAG 中 rerank 的有效性,要先明确 rerank 的目标:它不是单独追求模型打分更高,而是在召回候选中把真正能回答问题、可信、权限正确、时效合适的上下文排到前面,并在有限上下文窗口内提升最终答案质量。离线评估可以用带标注的 query-doc 数据集看 MRR、nDCG@k、context Recall@k / 证据 Recall@k(指 rerank 后进入生成上下文的 topK 是否覆盖答案证据)、Precision@k、Hit@k、MAP,也要看 topK 证据覆盖率、答案支持率、重复率、负样本压制能力和不同 query 类型的分桶表现。Rerank 前后要比较 topN 被送入生成模型的上下文是否更相关,而不只是候选全集指标。线上评估则看最终回答正确率、证据命中率、用户采纳率、追问率、投诉率、无答案率、人工质检分,同时监控 p95/p99 延迟、超时率、成本、吞吐、降级率和缓存命中。最可靠的方式是离线回放加线上 A/B:先确保 rerank 对相关性和答案支持有稳定提升,再用灰度实验验证用户侧收益是否大于额外延迟和成本。
Rerank 的目标是从多路召回候选中选出最适合放进上下文窗口的证据。它要考虑 query-doc 相关性、是否能支持答案、是否重复、是否过期、是否有权限、是否来自可信知识源。只看 reranker 自己的分数没有意义,关键是排序变化能否帮助最终回答。
需要构建 query、候选文档、相关性等级和可回答性标注。标注可以分为强相关、部分相关、无关、误导、无权限、过期等类别。没有高质量标注时,nDCG、MRR 等指标会失真,因为系统不知道排上来的内容到底是否能回答问题。
MRR 关注第一个相关结果出现得多早,适合答案依赖单个关键证据的场景;nDCG@k 适合多级相关性,能衡量高相关文档是否排在前面;Precision@k 看前 k 个结果的纯度;context Recall@k / 证据 Recall@k 看相关证据是否被包含。Rerank 重点通常是 top5 或 top10,因为这些才会进入生成上下文。
传统检索指标不完全等价于 RAG 效果。还要看生成所需证据是否都进入上下文、多个证据是否互补、是否有重复段落挤占窗口、是否把误导性内容排到前面。可以评估 context precision、context recall、answer support 和 evidence hit。
Rerank 对不同问题类型效果不同。实体精确查询、语义问答、多跳问题、最新政策、表格问题、长尾问题和无答案问题应分开看。平均 nDCG 提升可能掩盖某类关键业务问题下降,所以面试中要强调 query 分桶和 bad case 分析。
线上不能只看检索指标,要看最终回答正确率、用户点赞或采纳、搜索后追问率、重新提问率、人工质检分、证据点击率、无答案率和投诉率。如果 rerank 让相关证据更靠前,但延迟太高导致用户流失,也不是成功。
Rerank 通常比召回更重,尤其是 cross-encoder 或 LLM rerank。需要监控 p50、p95、p99 延迟、超时率、QPS、GPU 或 CPU 利用率、单 query 成本、候选数、batch 效率、缓存命中率和降级触发次数。效果收益必须和成本一起评估。
上线前用历史 query 回放比较 rerank 前后的排序、答案和成本;上线时做小流量 A/B,保证同一召回候选下只改变 rerank 或明确记录变量。实验结束后结合整体指标、分桶指标和人工 bad case 决定是否扩大流量。
如果任务通常只需要一个关键文档,MRR 很直观,因为它关注第一个相关结果的位置。如果相关性有等级,或者答案需要多个证据共同支持,nDCG@k 更合适,因为它能奖励高相关证据排在更前面。
如果 k 指的是候选召回阶段,rerank 不改变候选集合,context Recall@k / 证据 Recall@k 通常不变;但如果 k 指的是送入生成模型的前 k 个上下文,rerank 会改变这个集合,可能让必要证据进入或离开上下文窗口,所以需要单独评估 context recall。
可以先用点击、证据命中、历史满意度、规则弱标注或 LLM 辅助标注构建初版集合,但关键集仍应抽样人工校验。否则模型可能只是迎合弱标签偏差,离线指标好看但线上答案不稳定。
无答案问题要看 rerank 是否把看似相关但不能回答的材料压下去,并让系统更容易拒答或澄清。指标可以包括误答率、无答案识别准确率、误导文档上榜率和人工质检中的幻觉率。
可以减少候选数、先用轻量模型预筛、batch 推理、缓存热门 query、按 query 难度选择是否 rerank、设置超时降级,或者只对高价值场景启用重模型。优化后仍要重新评估质量是否损失。