60 秒回答模板

我会先按任务确定指标:分类看 accuracy、precision、recall、F1、AUC、PR-AUC,排序推荐看 NDCG、MAP、MRR、HitRate,生成类模型看人工偏好、事实性、指令遵循和安全性。然后补充评估流程:训练/验证/测试集要隔离,线上最好用 A/B 实验验证业务指标,最后做分桶分析、坏例分析和成本延迟评估,避免只用一个离线均值下结论。

考点 任务决定指标
难度 算法岗真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

先看任务目标

不同模型的性能定义不一样。分类模型关注正负样本识别,排序模型关注候选顺序,生成模型关注答案质量和安全边界,召回模型关注覆盖率和候选质量。面试回答要先说明任务目标,否则指标选择会显得随意。

02

离线指标分层

分类任务可以看 accuracy、precision、recall、F1、AUC、PR-AUC;排序推荐任务常看 NDCG、MAP、MRR、HitRate;回归任务看 MAE、MSE、RMSE;生成类任务还需要人工评估、参考答案评估和安全评估。指标要和错误成本绑定。

03

线上验证

离线指标只说明历史数据上的拟合和排序能力,不能完全代表真实效果。上线前后要观察业务指标、用户体验指标、延迟、吞吐、成本和稳定性。重要模型通常需要 A/B 实验或灰度实验,避免离线提升但线上伤害业务。

04

可信性检查

评估要关注数据泄漏、样本分布漂移、测试集污染和统计波动。可以做时间切分、交叉验证、置信区间、显著性检验和分桶评估。只看整体均值容易掩盖长尾用户、冷启动样本或高风险场景的退化。

05

误差分析

性能评估最后要落到可改进方向。需要分析混淆矩阵、坏例样本、召回漏斗、特征缺失、标签噪声和不同人群/场景的表现差异。好的答案会把指标结果和下一步优化策略联系起来,而不是停在报数字。

易错点

  • 只说 accuracy 或 loss,不区分任务类型和业务目标。
  • 把离线测试集结果直接等同于线上业务效果。
  • 没有检查数据泄漏、分布漂移和统计显著性。
  • 只报平均指标,不做分桶和坏例分析。

面试官追问

AUC 高但线上效果不好可能是什么原因?

可能是离线样本和线上分布不一致、指标与业务目标不一致、概率未校准、线上特征延迟或缺失,也可能是 AUC 提升集中在低价值区间,关键阈值附近没有改善。

样本极度不平衡时应该重点看什么?

不能只看 accuracy,更应看 precision、recall、F1、PR-AUC、混淆矩阵和业务成本。具体选择取决于漏判和误判哪个代价更高。

生成式模型性能怎么评估?

需要结合自动指标、人工偏好、事实性、指令遵循、安全性、稳定性和成本延迟。单一 BLEU 或 ROUGE 很难覆盖开放回答质量。