RAG 中如何评估 Rerank 的有效性，应该看哪些离线指标和线上指标？｜快手后端开发面经解析

60 秒回答模板

评估 RAG 中 rerank 的有效性，要先明确 rerank 的目标：它不是单独追求模型打分更高，而是在召回候选中把真正能回答问题、可信、权限正确、时效合适的上下文排到前面，并在有限上下文窗口内提升最终答案质量。离线评估可以用带标注的 query-doc 数据集看 MRR、nDCG@k、context Recall@k / 证据 Recall@k（指 rerank 后进入生成上下文的 topK 是否覆盖答案证据）、Precision@k、Hit@k、MAP，也要看 topK 证据覆盖率、答案支持率、重复率、负样本压制能力和不同 query 类型的分桶表现。Rerank 前后要比较 topN 被送入生成模型的上下文是否更相关，而不只是候选全集指标。线上评估则看最终回答正确率、证据命中率、用户采纳率、追问率、投诉率、无答案率、人工质检分，同时监控 p95/p99 延迟、超时率、成本、吞吐、降级率和缓存命中。最可靠的方式是离线回放加线上 A/B：先确保 rerank 对相关性和答案支持有稳定提升，再用灰度实验验证用户侧收益是否大于额外延迟和成本。

考点 离线看排序质量

难度 真实面经题

回答目标 让候选人能系统说明 rerank 有效性的离线排序指标、RAG 证据指标、线上业务指标、性能成本指标、A/B 设计和常见评估陷阱。

深入解析

先定义 rerank 目标

Rerank 的目标是从多路召回候选中选出最适合放进上下文窗口的证据。它要考虑 query-doc 相关性、是否能支持答案、是否重复、是否过期、是否有权限、是否来自可信知识源。只看 reranker 自己的分数没有意义，关键是排序变化能否帮助最终回答。

离线数据要有标注

需要构建 query、候选文档、相关性等级和可回答性标注。标注可以分为强相关、部分相关、无关、误导、无权限、过期等类别。没有高质量标注时，nDCG、MRR 等指标会失真，因为系统不知道排上来的内容到底是否能回答问题。

排序指标看位置收益

MRR 关注第一个相关结果出现得多早，适合答案依赖单个关键证据的场景；nDCG@k 适合多级相关性，能衡量高相关文档是否排在前面；Precision@k 看前 k 个结果的纯度；context Recall@k / 证据 Recall@k 看相关证据是否被包含。Rerank 重点通常是 top5 或 top10，因为这些才会进入生成上下文。

RAG 还要看证据覆盖

传统检索指标不完全等价于 RAG 效果。还要看生成所需证据是否都进入上下文、多个证据是否互补、是否有重复段落挤占窗口、是否把误导性内容排到前面。可以评估 context precision、context recall、answer support 和 evidence hit。

分桶评估避免平均数遮蔽

Rerank 对不同问题类型效果不同。实体精确查询、语义问答、多跳问题、最新政策、表格问题、长尾问题和无答案问题应分开看。平均 nDCG 提升可能掩盖某类关键业务问题下降，所以面试中要强调 query 分桶和 bad case 分析。

线上指标看用户结果

线上不能只看检索指标，要看最终回答正确率、用户点赞或采纳、搜索后追问率、重新提问率、人工质检分、证据点击率、无答案率和投诉率。如果 rerank 让相关证据更靠前，但延迟太高导致用户流失，也不是成功。

工程指标决定能否落地

Rerank 通常比召回更重，尤其是 cross-encoder 或 LLM rerank。需要监控 p50、p95、p99 延迟、超时率、QPS、GPU 或 CPU 利用率、单 query 成本、候选数、batch 效率、缓存命中率和降级触发次数。效果收益必须和成本一起评估。

A/B 与回放形成闭环

上线前用历史 query 回放比较 rerank 前后的排序、答案和成本；上线时做小流量 A/B，保证同一召回候选下只改变 rerank 或明确记录变量。实验结束后结合整体指标、分桶指标和人工 bad case 决定是否扩大流量。

易错点

只看 reranker 分数均值，不看排序位置和最终答案效果。
只看离线 nDCG，不看线上回答正确率、用户行为和人工质检。
忽略 topK 上下文窗口，评估了不会送进生成模型的候选位置。
没有分桶分析，平均指标提升但关键业务 query 退化。
把召回变化、prompt 变化和 rerank 变化混在一个实验里，无法归因。
不评估无答案、过期文档、权限错误和重复文档等生产场景。
忽略 p95/p99 延迟、成本和超时率，导致模型效果好但线上不可用。
没有 bad case 回看机制，不知道 rerank 为什么把错误文档排到前面。

面试官追问

MRR 和 nDCG 该怎么选？

如果任务通常只需要一个关键文档，MRR 很直观，因为它关注第一个相关结果的位置。如果相关性有等级，或者答案需要多个证据共同支持，nDCG@k 更合适，因为它能奖励高相关证据排在更前面。

Rerank 后 Recall@k 可能下降吗？

如果 k 指的是候选召回阶段，rerank 不改变候选集合，context Recall@k / 证据 Recall@k 通常不变；但如果 k 指的是送入生成模型的前 k 个上下文，rerank 会改变这个集合，可能让必要证据进入或离开上下文窗口，所以需要单独评估 context recall。

没有人工标注怎么评估？

可以先用点击、证据命中、历史满意度、规则弱标注或 LLM 辅助标注构建初版集合，但关键集仍应抽样人工校验。否则模型可能只是迎合弱标签偏差，离线指标好看但线上答案不稳定。

如何评估无答案问题？

无答案问题要看 rerank 是否把看似相关但不能回答的材料压下去，并让系统更容易拒答或澄清。指标可以包括误答率、无答案识别准确率、误导文档上榜率和人工质检中的幻觉率。

Rerank 很慢怎么办？

可以减少候选数、先用轻量模型预筛、batch 推理、缓存热门 query、按 query 难度选择是否 rerank、设置超时降级，或者只对高价值场景启用重模型。优化后仍要重新评估质量是否损失。