真实面经题目 · 原创解析
模型性能如何评估?
模型性能评估不能只报一个 accuracy。更稳的回答是先确定任务类型和业务目标,再区分离线指标、线上指标、鲁棒性指标和成本指标,最后说明数据切分、统计显著性和误差分析如何保证评估可信。
我会先按任务确定指标:分类看 accuracy、precision、recall、F1、AUC、PR-AUC,排序推荐看 NDCG、MAP、MRR、HitRate,生成类模型看人工偏好、事实性、指令遵循和安全性。然后补充评估流程:训练/验证/测试集要隔离,线上最好用 A/B 实验验证业务指标,最后做分桶分析、坏例分析和成本延迟评估,避免只用一个离线均值下结论。
不同模型的性能定义不一样。分类模型关注正负样本识别,排序模型关注候选顺序,生成模型关注答案质量和安全边界,召回模型关注覆盖率和候选质量。面试回答要先说明任务目标,否则指标选择会显得随意。
分类任务可以看 accuracy、precision、recall、F1、AUC、PR-AUC;排序推荐任务常看 NDCG、MAP、MRR、HitRate;回归任务看 MAE、MSE、RMSE;生成类任务还需要人工评估、参考答案评估和安全评估。指标要和错误成本绑定。
离线指标只说明历史数据上的拟合和排序能力,不能完全代表真实效果。上线前后要观察业务指标、用户体验指标、延迟、吞吐、成本和稳定性。重要模型通常需要 A/B 实验或灰度实验,避免离线提升但线上伤害业务。
评估要关注数据泄漏、样本分布漂移、测试集污染和统计波动。可以做时间切分、交叉验证、置信区间、显著性检验和分桶评估。只看整体均值容易掩盖长尾用户、冷启动样本或高风险场景的退化。
性能评估最后要落到可改进方向。需要分析混淆矩阵、坏例样本、召回漏斗、特征缺失、标签噪声和不同人群/场景的表现差异。好的答案会把指标结果和下一步优化策略联系起来,而不是停在报数字。
可能是离线样本和线上分布不一致、指标与业务目标不一致、概率未校准、线上特征延迟或缺失,也可能是 AUC 提升集中在低价值区间,关键阈值附近没有改善。
不能只看 accuracy,更应看 precision、recall、F1、PR-AUC、混淆矩阵和业务成本。具体选择取决于漏判和误判哪个代价更高。
需要结合自动指标、人工偏好、事实性、指令遵循、安全性、稳定性和成本延迟。单一 BLEU 或 ROUGE 很难覆盖开放回答质量。