60 秒回答模板

分类指标要从混淆矩阵讲起:TP、FP、TN、FN 决定 accuracy、precision、recall、specificity 和 F1。Accuracy 适合类别较均衡且误判成本接近的场景;样本不平衡时要重点看 precision、recall、F1、PR-AUC 和分层召回。ROC-AUC 衡量排序能力,但在负样本极多时可能显得过于乐观;PR-AUC 更关注正类识别。若模型输出会当概率使用,还要看 logloss、Brier score 和校准曲线。真实业务不能只汇报一个离线分数,要说明阈值如何选、误报漏报成本是什么、不同人群和时间切片是否稳定,以及线上 A/B 指标是否跟离线指标一致。

考点 指标地基
难度 真实面经题
回答目标 讲清原理、实现和边界

深入解析

01

先建混淆矩阵

二分类评价的地基是 TP、FP、TN、FN。先定义什么是正类,再说明预测正且真实正是 TP、预测正但真实负是 FP、预测负但真实正是 FN。没有这个表,后面的准确率、精确率和召回率都只是背公式。

02

基础指标各自回答什么

Accuracy 回答整体预测对了多少,Precision 回答被模型判成正的样本有多少是真的,Recall 回答真实正样本被找回多少。F1 是 precision 和 recall 的调和平均,适合两者都重要但不能只看单边的场景。

03

阈值会改变业务结果

同一个模型分数,阈值调高会提高 precision 但通常降低 recall,阈值调低会召回更多正样本但带来更多误报。面试里要把阈值选择和业务成本连接起来,比如风控更怕漏过坏样本,推荐召回更怕漏掉潜在兴趣。

04

样本不平衡时换视角

正样本很少时,accuracy 可能非常虚高。比如 1% 正样本的任务,全预测负类也有 99% accuracy,但业务价值为零。这时更应关注 recall、precision、F1、PR-AUC、top-k 命中率和正类分层表现。

05

ROC-AUC 和 PR-AUC 的区别

ROC-AUC 衡量随机抽一个正样本排在随机负样本前面的概率,适合看整体排序能力。PR-AUC 只围绕正类的 precision 和 recall 展开,在正样本稀少、负样本海量时更能暴露正类识别质量。

06

概率质量和校准

AUC 高只说明排序好,不代表 0.8 分就真有 80% 概率为正。如果模型分数要用于定价、风险分层或资源分配,还要看 logloss、Brier score、可靠性曲线和分桶校准误差。

07

多分类要看平均方式

多分类不能只给一个 accuracy。Macro average 平等看待每个类别,能暴露小类表现;micro average 按样本量汇总,容易被大类主导;weighted average 介于两者之间,适合说明总体效果。

08

最终落到业务切片

离线指标要拆到场景、人群、时间、新老用户、长尾类别和冷启动样本。一个平均分提升可能来自头部样本,真正上线后关键切片反而变差,所以要结合线上 A/B 和业务损失矩阵判断。

易错点

  • 不要只列指标名,要说明每个指标回答的业务问题和适用前提。
  • 不要在样本极不平衡时只看 accuracy,正类召回可能已经崩掉。
  • 不要把 AUC 高等同于线上业务一定好,阈值、校准、切片和样本分布仍然关键。
  • 不要混淆 precision 和 recall。一个关注预测正样本的纯度,一个关注真实正样本的覆盖。
  • 不要用一个平均指标掩盖关键类别、长尾人群或冷启动样本的退化。

面试官追问

类别不平衡时为什么 accuracy 不可靠?

多数类占比很高时,模型全预测多数类也能得到很高 accuracy,但正类召回可能为 0,业务真正关心的目标完全没被解决。

Precision 和 Recall 如何取舍?

误报成本高时提高阈值偏向 precision,漏报成本高时降低阈值偏向 recall。最终应结合成本矩阵、容量约束和线上实验定阈值。

ROC-AUC 和 PR-AUC 怎么选?

正负相对均衡时 ROC-AUC 能反映整体排序;正样本稀少时 PR-AUC 更敏感,因为它直接关注预测正样本的纯度和正类召回。

AUC 很高但线上效果不好,可能是什么原因?

可能是阈值没调好、概率未校准、训练验证分布和线上不一致、关键业务切片变差,或 AUC 提升集中在低价值样本区间。

多分类任务怎么汇报指标?

除 accuracy 外,要看每类 precision/recall/F1,并说明 macro、micro、weighted average 的差异,尤其关注样本少但业务重要的类别。

模型分数要当概率使用时看什么?

要看 logloss、Brier score、校准曲线和分桶命中率。排序指标高不代表概率数值可信。