Uplift模型评估指标有哪些？｜滴滴算法面经解析

60 秒回答模板

Uplift 模型评估要看模型能否把最容易被干预影响的人排到前面。常见指标包括分桶 uplift，看各分位 treatment 和 control 的转化差；uplift curve 或 cumulative gain curve，看按模型分排序后累计增量收益；AUUC 衡量曲线下面积；Qini curve 和 Qini coefficient 衡量相对随机投放的增量收益。最终还要用线上 A/B 或 holdout 验证真实增量，因为离线 uplift 指标对实验设计和样本随机性很敏感。

考点 评估增量

难度 算法岗真实面经题

回答目标 讲清方法、取舍和追问

深入解析

先区分目标

传统分类模型评估的是转化概率预测准不准，Uplift 模型评估的是 treatment 相比 control 带来的增量变化。只看 AUC 或 accuracy 不能判断模型是否找到了可被干预影响的人群。

分桶 uplift

常见做法是按模型预测 uplift 从高到低分桶，在每个桶里比较实验组和对照组转化率差异。理想情况是高分桶增量明显更高，低分桶甚至可能接近零或为负。

曲线类指标

uplift curve、cumulative gain curve 和 Qini curve 都关注按模型排序逐步覆盖人群时的累计增量收益。AUUC 或 Qini 系数用面积总结排序能力，能反映模型把高增量人群排到前面的能力。

业务指标验证

离线指标仍然依赖随机实验样本和稳定估计。上线前后要看 Top-K 投放收益、ROI、成本、负反馈和长期留存，并用 A/B 或 holdout 验证真实业务增量。

统计可信性

Uplift 评估的方差通常较大，尤其在低转化场景。需要看置信区间、样本量、分桶稳定性、实验组对照组均衡性，以及不同人群分层下的指标一致性。

易错点

不要用传统分类准确率直接代替 Uplift 评估。
不要只看整体 uplift，不看模型排序后不同分桶的增量变化。
不要忽略对照组质量，非随机或不均衡样本会污染指标。
不要只报离线 AUUC，业务投放还要看成本、ROI 和负反馈。

面试官追问

为什么不能只用 AUC 评估 Uplift 模型？

AUC 评估的是分类排序能力，可能把本来就会转化的人排前面；Uplift 要找的是因为干预才会转化的人，两者目标不同。

AUUC 和 Qini 指标有什么直观含义？

它们都可以理解为按模型排序逐步投放时获得的累计增量收益面积，面积越大，说明模型越能优先识别高增量人群。

Uplift 指标不稳定怎么办？

要增加样本量、检查随机分组均衡性、合并过细分桶、看置信区间，并在关键人群上用线上实验验证。