60 秒回答模板

我会先定义目标和时间点:贷款申请时预测未来某个窗口内是否逾期,所以所有特征只能使用申请时刻之前可获得的数据。特征可以分几类:店铺基础画像,如经营年限、类目、地区、主体资质;经营质量,如 GMV、订单量、客单价、退款率、复购、评分和波动趋势;现金流和偿付能力,如收入稳定性、库存周转、资金流水、负债和历史还款;行为风险,如短期异常增长、刷单嫌疑、频繁改资料、投诉和售后异常;关系网络,如关联店铺、设备、账户和担保关系。最后要做缺失值、异常值、时间窗聚合、稳定性监控、特征重要性和分群评估,尤其防止未来信息泄漏。

考点 时间穿越是红线
难度 真实面经题
回答目标 讲清原理、实现和边界

深入解析

01

先定标签和时间点

风控特征工程必须先明确预测时点、贷款产品、逾期定义和观察窗口。申请时刻之后才发生的信息不能进入特征,否则离线效果会虚高,线上无法复现。

02

店铺经营特征

店铺的经营年限、类目、地区、GMV、订单量、客单价、退款率、评分、活跃天数和趋势波动能反映经营稳定性。要同时看绝对水平、同比环比和短期异常变化。

03

偿付和履约特征

逾期风险核心是偿付能力和意愿。可以构造收入稳定性、现金流覆盖、历史借还款、逾期次数、还款提前或拖延、负债水平、授信使用率等特征。

04

异常和反欺诈信号

风控不能只看正常经营,还要识别刷单、虚假交易、集中退款、投诉激增、频繁换绑、设备或账户异常、关联主体风险传导等信号。

05

评估和上线一致性

特征上线前要检查覆盖率、PSI、缺失率、稳定性、单调性、分箱效果、AUC/KS/Recall 和分群坏账率。训练、验证和线上计算口径必须一致,并按时间切分验证。

易错点

  • 只列用户画像特征,没围绕逾期标签和还款能力设计。
  • 使用贷款后表现、催收结果等未来信息造成数据泄漏。
  • 忽略类目、地区和经营阶段差异,导致特征不可比较。
  • 只看 AUC,不看坏账率、通过率、稳定性和分群效果。

面试官追问

如何避免标签泄漏?

严格以申请时点截断特征,只使用当时已落库或可实时获取的数据,并按时间切分训练验证集。

店铺类目差异很大怎么办?

可以做类目归一化、类目内分位数、类目交叉特征和分群模型,避免把类目规模差异误当风险。

缺失值在风控中怎么处理?

缺失本身可能有风险含义,要保留缺失指示变量,并区分无记录、未授权、系统缺失和不适用。

离线指标之外还看什么?

看坏账率、通过率、收益风险比、稳定性、拒绝原因分布、客群覆盖和上线后的漂移监控。