模型性能如何评估？｜高频面试题解析

60 秒回答模板

我会先按任务确定指标：分类看 accuracy、precision、recall、F1、AUC、PR-AUC，排序推荐看 NDCG、MAP、MRR、HitRate，生成类模型看人工偏好、事实性、指令遵循和安全性。然后补充评估流程：训练/验证/测试集要隔离，线上最好用 A/B 实验验证业务指标，最后做分桶分析、坏例分析和成本延迟评估，避免只用一个离线均值下结论。

考点 任务决定指标

难度 算法岗真实面经题

回答目标 讲清方法、取舍和追问

深入解析

先看任务目标

不同模型的性能定义不一样。分类模型关注正负样本识别，排序模型关注候选顺序，生成模型关注答案质量和安全边界，召回模型关注覆盖率和候选质量。面试回答要先说明任务目标，否则指标选择会显得随意。

离线指标分层

分类任务可以看 accuracy、precision、recall、F1、AUC、PR-AUC；排序推荐任务常看 NDCG、MAP、MRR、HitRate；回归任务看 MAE、MSE、RMSE；生成类任务还需要人工评估、参考答案评估和安全评估。指标要和错误成本绑定。

线上验证

离线指标只说明历史数据上的拟合和排序能力，不能完全代表真实效果。上线前后要观察业务指标、用户体验指标、延迟、吞吐、成本和稳定性。重要模型通常需要 A/B 实验或灰度实验，避免离线提升但线上伤害业务。

可信性检查

评估要关注数据泄漏、样本分布漂移、测试集污染和统计波动。可以做时间切分、交叉验证、置信区间、显著性检验和分桶评估。只看整体均值容易掩盖长尾用户、冷启动样本或高风险场景的退化。

误差分析

性能评估最后要落到可改进方向。需要分析混淆矩阵、坏例样本、召回漏斗、特征缺失、标签噪声和不同人群/场景的表现差异。好的答案会把指标结果和下一步优化策略联系起来，而不是停在报数字。

易错点

只说 accuracy 或 loss，不区分任务类型和业务目标。
把离线测试集结果直接等同于线上业务效果。
没有检查数据泄漏、分布漂移和统计显著性。
只报平均指标，不做分桶和坏例分析。

面试官追问

AUC 高但线上效果不好可能是什么原因？

可能是离线样本和线上分布不一致、指标与业务目标不一致、概率未校准、线上特征延迟或缺失，也可能是 AUC 提升集中在低价值区间，关键阈值附近没有改善。

样本极度不平衡时应该重点看什么？

不能只看 accuracy，更应看 precision、recall、F1、PR-AUC、混淆矩阵和业务成本。具体选择取决于漏判和误判哪个代价更高。

生成式模型性能怎么评估？

需要结合自动指标、人工偏好、事实性、指令遵循、安全性、稳定性和成本延迟。单一 BLEU 或 ROUGE 很难覆盖开放回答质量。