风控评分卡建模从样本、分箱到评估监控的流程是什么？｜滴滴算法面经解析

60 秒回答模板

风控评分卡我会按完整流程回答。先定义业务目标、坏样本标签和观察/表现窗口，再按时间切分训练、验证和 OOT，避免时间穿越。样本层面处理不平衡、拒绝样本偏差、缺失值和异常值。特征层面做稳定性筛选、分箱、WOE 编码和 IV 评估，分箱要兼顾单调性、样本量和业务可解释性。建模上经典评分卡常用 LR+WOE，XGBoost 可以作为效果 benchmark 或非线性 challenger。评估看 AUC、KS、PR、校准、分数分布和通过率-坏账率曲线。上线后监控 PSI、特征漂移、分数漂移、坏账率回溯和策略阈值效果。

考点 标签窗口

难度 真实面经题

回答目标 讲清原理、实现和边界

深入解析

定义标签和窗口

评分卡的第一步不是选模型，而是定义坏样本。要明确观察窗口用于收集申请或行为特征，表现窗口用于判断是否发生风险事件。窗口定义会影响样本成熟度和标签稳定性，不能把未来信息带入特征，也不能用未成熟样本训练。

样本构建和切分

风控数据常有样本不平衡、拒绝样本缺失和时间漂移。训练、验证和 OOT 最好按时间切分，用 OOT 模拟未来表现；不平衡可以通过 class weight、欠采样、过采样或阈值策略处理，但评估时要回到真实分布。拒绝样本是否做推断，要看业务链路和标签可信度。

特征处理和分箱

评分卡强调稳定和可解释，连续变量通常做分箱，离散变量做合并或编码。分箱要考虑每箱样本量、坏样本率单调性、缺失值单独成箱、异常值处理和业务含义。WOE 把每箱的好坏样本比例转成可用于 LR 的数值，IV 可辅助筛选预测能力，但不能只按 IV 机械选特征。

模型训练和评分映射

经典评分卡常用 WOE 后的逻辑回归，因为系数方向、分箱贡献和最终分数容易解释。训练后可以把 log odds 映射成分数，例如设定基准分和 PDO，让风险概率变成业务可读的分数。XGBoost 等非线性模型可作为效果对照或 challenger，但如果要落地评分卡，仍要考虑解释性、稳定性和策略可控性。

模型评估

离线评估不只看 AUC。风控常用 KS 衡量好坏样本区分度，用 PR 或 Recall@Precision 处理低坏样本率场景，用校准曲线检查分数是否对应真实风险，还要看分数分布、分段坏账率、通过率-风险曲线和不同人群切片表现。

上线监控和迭代

评分卡上线后要监控特征 PSI、分数 PSI、通过率、命中率、坏样本率回溯、分箱坏账率是否单调和策略阈值是否失效。风控环境会随客群、渠道和对抗行为变化，监控发现漂移后需要回溯样本、重新分箱或调整策略，而不是只重训模型。

易错点

直接从 XGBoost 开始讲，忽略评分卡的标签窗口、分箱、WOE 和可解释评分。
随机切分风控样本，造成时间穿越，离线效果虚高。
只按 IV 选特征，不看稳定性、泄漏、相关性和业务可解释性。
上线后只看 AUC，不监控 PSI、分数分布和分段坏样本率回溯。

面试官追问

为什么评分卡常用 WOE+LR？

WOE 能把分箱后的好坏样本比例转成有业务含义的数值，LR 系数方向和贡献容易解释，最终分数也便于拆解和策略沟通。

IV 高的特征一定好吗？

不一定。IV 高可能来自泄漏、样本量过小或不稳定分箱。还要看 OOT 稳定性、业务含义、相关性和上线可获得性。

样本不平衡怎么处理？

训练可以使用 class weight、采样或阈值调整，但验证要回到真实分布，并关注 KS、PR、Recall@Precision 和分段坏样本率。

PSI 是看什么的？

PSI 用来衡量特征或分数分布相对基准期是否漂移。它不能直接说明模型坏了，但能提示客群、渠道或数据链路发生变化，需要进一步排查。