真实面经题目 · 原创解析
分类问题常用的评价指标有哪些?
分类指标不是一串名词,而是一套围绕混淆矩阵、阈值、样本分布、排序质量、概率校准和业务损失的评价体系。
真实面经题目 · 原创解析
分类指标不是一串名词,而是一套围绕混淆矩阵、阈值、样本分布、排序质量、概率校准和业务损失的评价体系。
分类指标要从混淆矩阵讲起:TP、FP、TN、FN 决定 accuracy、precision、recall、specificity 和 F1。Accuracy 适合类别较均衡且误判成本接近的场景;样本不平衡时要重点看 precision、recall、F1、PR-AUC 和分层召回。ROC-AUC 衡量排序能力,但在负样本极多时可能显得过于乐观;PR-AUC 更关注正类识别。若模型输出会当概率使用,还要看 logloss、Brier score 和校准曲线。真实业务不能只汇报一个离线分数,要说明阈值如何选、误报漏报成本是什么、不同人群和时间切片是否稳定,以及线上 A/B 指标是否跟离线指标一致。
二分类评价的地基是 TP、FP、TN、FN。先定义什么是正类,再说明预测正且真实正是 TP、预测正但真实负是 FP、预测负但真实正是 FN。没有这个表,后面的准确率、精确率和召回率都只是背公式。
Accuracy 回答整体预测对了多少,Precision 回答被模型判成正的样本有多少是真的,Recall 回答真实正样本被找回多少。F1 是 precision 和 recall 的调和平均,适合两者都重要但不能只看单边的场景。
同一个模型分数,阈值调高会提高 precision 但通常降低 recall,阈值调低会召回更多正样本但带来更多误报。面试里要把阈值选择和业务成本连接起来,比如风控更怕漏过坏样本,推荐召回更怕漏掉潜在兴趣。
正样本很少时,accuracy 可能非常虚高。比如 1% 正样本的任务,全预测负类也有 99% accuracy,但业务价值为零。这时更应关注 recall、precision、F1、PR-AUC、top-k 命中率和正类分层表现。
ROC-AUC 衡量随机抽一个正样本排在随机负样本前面的概率,适合看整体排序能力。PR-AUC 只围绕正类的 precision 和 recall 展开,在正样本稀少、负样本海量时更能暴露正类识别质量。
AUC 高只说明排序好,不代表 0.8 分就真有 80% 概率为正。如果模型分数要用于定价、风险分层或资源分配,还要看 logloss、Brier score、可靠性曲线和分桶校准误差。
多分类不能只给一个 accuracy。Macro average 平等看待每个类别,能暴露小类表现;micro average 按样本量汇总,容易被大类主导;weighted average 介于两者之间,适合说明总体效果。
离线指标要拆到场景、人群、时间、新老用户、长尾类别和冷启动样本。一个平均分提升可能来自头部样本,真正上线后关键切片反而变差,所以要结合线上 A/B 和业务损失矩阵判断。
多数类占比很高时,模型全预测多数类也能得到很高 accuracy,但正类召回可能为 0,业务真正关心的目标完全没被解决。
误报成本高时提高阈值偏向 precision,漏报成本高时降低阈值偏向 recall。最终应结合成本矩阵、容量约束和线上实验定阈值。
正负相对均衡时 ROC-AUC 能反映整体排序;正样本稀少时 PR-AUC 更敏感,因为它直接关注预测正样本的纯度和正类召回。
可能是阈值没调好、概率未校准、训练验证分布和线上不一致、关键业务切片变差,或 AUC 提升集中在低价值样本区间。
除 accuracy 外,要看每类 precision/recall/F1,并说明 macro、micro、weighted average 的差异,尤其关注样本少但业务重要的类别。
要看 logloss、Brier score、校准曲线和分桶命中率。排序指标高不代表概率数值可信。