真实面经题目 · 原创解析
给店铺卖家发放贷款并控制逾期率,特征工程如何设计?
这题考风控特征工程的完整框架:围绕逾期风险定义标签、时间窗口、主体画像、经营现金流、历史履约、异常行为和数据泄漏控制。
真实面经题目 · 原创解析
这题考风控特征工程的完整框架:围绕逾期风险定义标签、时间窗口、主体画像、经营现金流、历史履约、异常行为和数据泄漏控制。
我会先定义目标和时间点:贷款申请时预测未来某个窗口内是否逾期,所以所有特征只能使用申请时刻之前可获得的数据。特征可以分几类:店铺基础画像,如经营年限、类目、地区、主体资质;经营质量,如 GMV、订单量、客单价、退款率、复购、评分和波动趋势;现金流和偿付能力,如收入稳定性、库存周转、资金流水、负债和历史还款;行为风险,如短期异常增长、刷单嫌疑、频繁改资料、投诉和售后异常;关系网络,如关联店铺、设备、账户和担保关系。最后要做缺失值、异常值、时间窗聚合、稳定性监控、特征重要性和分群评估,尤其防止未来信息泄漏。
风控特征工程必须先明确预测时点、贷款产品、逾期定义和观察窗口。申请时刻之后才发生的信息不能进入特征,否则离线效果会虚高,线上无法复现。
店铺的经营年限、类目、地区、GMV、订单量、客单价、退款率、评分、活跃天数和趋势波动能反映经营稳定性。要同时看绝对水平、同比环比和短期异常变化。
逾期风险核心是偿付能力和意愿。可以构造收入稳定性、现金流覆盖、历史借还款、逾期次数、还款提前或拖延、负债水平、授信使用率等特征。
风控不能只看正常经营,还要识别刷单、虚假交易、集中退款、投诉激增、频繁换绑、设备或账户异常、关联主体风险传导等信号。
特征上线前要检查覆盖率、PSI、缺失率、稳定性、单调性、分箱效果、AUC/KS/Recall 和分群坏账率。训练、验证和线上计算口径必须一致,并按时间切分验证。
严格以申请时点截断特征,只使用当时已落库或可实时获取的数据,并按时间切分训练验证集。
可以做类目归一化、类目内分位数、类目交叉特征和分群模型,避免把类目规模差异误当风险。
缺失本身可能有风险含义,要保留缺失指示变量,并区分无记录、未授权、系统缺失和不适用。
看坏账率、通过率、收益风险比、稳定性、拒绝原因分布、客群覆盖和上线后的漂移监控。