分类问题常用的评价指标有哪些？｜字节跳动算法面经解析

60 秒回答模板

分类指标要从混淆矩阵讲起：TP、FP、TN、FN 决定 accuracy、precision、recall、specificity 和 F1。Accuracy 适合类别较均衡且误判成本接近的场景；样本不平衡时要重点看 precision、recall、F1、PR-AUC 和分层召回。ROC-AUC 衡量排序能力，但在负样本极多时可能显得过于乐观；PR-AUC 更关注正类识别。若模型输出会当概率使用，还要看 logloss、Brier score 和校准曲线。真实业务不能只汇报一个离线分数，要说明阈值如何选、误报漏报成本是什么、不同人群和时间切片是否稳定，以及线上 A/B 指标是否跟离线指标一致。

考点 指标地基

难度 真实面经题

回答目标 讲清原理、实现和边界

深入解析

先建混淆矩阵

二分类评价的地基是 TP、FP、TN、FN。先定义什么是正类，再说明预测正且真实正是 TP、预测正但真实负是 FP、预测负但真实正是 FN。没有这个表，后面的准确率、精确率和召回率都只是背公式。

基础指标各自回答什么

Accuracy 回答整体预测对了多少，Precision 回答被模型判成正的样本有多少是真的，Recall 回答真实正样本被找回多少。F1 是 precision 和 recall 的调和平均，适合两者都重要但不能只看单边的场景。

阈值会改变业务结果

同一个模型分数，阈值调高会提高 precision 但通常降低 recall，阈值调低会召回更多正样本但带来更多误报。面试里要把阈值选择和业务成本连接起来，比如风控更怕漏过坏样本，推荐召回更怕漏掉潜在兴趣。

样本不平衡时换视角

正样本很少时，accuracy 可能非常虚高。比如 1% 正样本的任务，全预测负类也有 99% accuracy，但业务价值为零。这时更应关注 recall、precision、F1、PR-AUC、top-k 命中率和正类分层表现。

ROC-AUC 和 PR-AUC 的区别

ROC-AUC 衡量随机抽一个正样本排在随机负样本前面的概率，适合看整体排序能力。PR-AUC 只围绕正类的 precision 和 recall 展开，在正样本稀少、负样本海量时更能暴露正类识别质量。

概率质量和校准

AUC 高只说明排序好，不代表 0.8 分就真有 80% 概率为正。如果模型分数要用于定价、风险分层或资源分配，还要看 logloss、Brier score、可靠性曲线和分桶校准误差。

多分类要看平均方式

多分类不能只给一个 accuracy。Macro average 平等看待每个类别，能暴露小类表现；micro average 按样本量汇总，容易被大类主导；weighted average 介于两者之间，适合说明总体效果。

最终落到业务切片

离线指标要拆到场景、人群、时间、新老用户、长尾类别和冷启动样本。一个平均分提升可能来自头部样本，真正上线后关键切片反而变差，所以要结合线上 A/B 和业务损失矩阵判断。

易错点

不要只列指标名，要说明每个指标回答的业务问题和适用前提。
不要在样本极不平衡时只看 accuracy，正类召回可能已经崩掉。
不要把 AUC 高等同于线上业务一定好，阈值、校准、切片和样本分布仍然关键。
不要混淆 precision 和 recall。一个关注预测正样本的纯度，一个关注真实正样本的覆盖。
不要用一个平均指标掩盖关键类别、长尾人群或冷启动样本的退化。

面试官追问

类别不平衡时为什么 accuracy 不可靠？

多数类占比很高时，模型全预测多数类也能得到很高 accuracy，但正类召回可能为 0，业务真正关心的目标完全没被解决。

Precision 和 Recall 如何取舍？

误报成本高时提高阈值偏向 precision，漏报成本高时降低阈值偏向 recall。最终应结合成本矩阵、容量约束和线上实验定阈值。

ROC-AUC 和 PR-AUC 怎么选？

正负相对均衡时 ROC-AUC 能反映整体排序；正样本稀少时 PR-AUC 更敏感，因为它直接关注预测正样本的纯度和正类召回。

AUC 很高但线上效果不好，可能是什么原因？

可能是阈值没调好、概率未校准、训练验证分布和线上不一致、关键业务切片变差，或 AUC 提升集中在低价值样本区间。

多分类任务怎么汇报指标？

除 accuracy 外，要看每类 precision/recall/F1，并说明 macro、micro、weighted average 的差异，尤其关注样本少但业务重要的类别。

模型分数要当概率使用时看什么？

要看 logloss、Brier score、校准曲线和分桶命中率。排序指标高不代表概率数值可信。