真实面经题目 · 原创解析
Uplift模型评估指标有哪些?
Uplift 模型评估的核心不是预测转化概率,而是衡量干预带来的增量效果。回答应覆盖 uplift curve、Qini curve、AUUC、Qini 系数、分组 uplift、Top-K 增益和 A/B 验证。
真实面经题目 · 原创解析
Uplift 模型评估的核心不是预测转化概率,而是衡量干预带来的增量效果。回答应覆盖 uplift curve、Qini curve、AUUC、Qini 系数、分组 uplift、Top-K 增益和 A/B 验证。
Uplift 模型评估要看模型能否把最容易被干预影响的人排到前面。常见指标包括分桶 uplift,看各分位 treatment 和 control 的转化差;uplift curve 或 cumulative gain curve,看按模型分排序后累计增量收益;AUUC 衡量曲线下面积;Qini curve 和 Qini coefficient 衡量相对随机投放的增量收益。最终还要用线上 A/B 或 holdout 验证真实增量,因为离线 uplift 指标对实验设计和样本随机性很敏感。
传统分类模型评估的是转化概率预测准不准,Uplift 模型评估的是 treatment 相比 control 带来的增量变化。只看 AUC 或 accuracy 不能判断模型是否找到了可被干预影响的人群。
常见做法是按模型预测 uplift 从高到低分桶,在每个桶里比较实验组和对照组转化率差异。理想情况是高分桶增量明显更高,低分桶甚至可能接近零或为负。
uplift curve、cumulative gain curve 和 Qini curve 都关注按模型排序逐步覆盖人群时的累计增量收益。AUUC 或 Qini 系数用面积总结排序能力,能反映模型把高增量人群排到前面的能力。
离线指标仍然依赖随机实验样本和稳定估计。上线前后要看 Top-K 投放收益、ROI、成本、负反馈和长期留存,并用 A/B 或 holdout 验证真实业务增量。
Uplift 评估的方差通常较大,尤其在低转化场景。需要看置信区间、样本量、分桶稳定性、实验组对照组均衡性,以及不同人群分层下的指标一致性。
AUC 评估的是分类排序能力,可能把本来就会转化的人排前面;Uplift 要找的是因为干预才会转化的人,两者目标不同。
它们都可以理解为按模型排序逐步投放时获得的累计增量收益面积,面积越大,说明模型越能优先识别高增量人群。
要增加样本量、检查随机分组均衡性、合并过细分桶、看置信区间,并在关键人群上用线上实验验证。