真实面经题目 · 原创解析

特征工程中,如何量化特征与目标变量的因果关系?

量化特征与目标变量的因果关系,不能只看相关系数或特征重要性,而要定义干预、构造对照、控制混淆并估计处理效应。常见方法包括 RCT、倾向评分、DID、IV、DML 和因果图分析。

出现于:滴滴 · 算法

60 秒回答模板

我会先把特征是否可干预说清楚:如果特征只是用户属性,通常只能评估关联或异质性;如果特征对应可干预策略,就可以定义 treatment。然后画因果图找混淆变量,优先用随机实验估计 ATE 或 CATE;没有实验时可用倾向评分匹配、IPW、回归控制、DID、IV 或 DML。最后做平衡性、安慰剂和敏感性分析,避免把相关性误当因果。

考点 先看可干预
难度 算法岗真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

定义可干预特征

因果关系需要明确如果改变这个特征会发生什么。部分特征只是描述性属性,不能直接干预;此时更适合讨论异质性或代理变量,而不是声称特征导致目标变化。

02

画因果图找混淆

特征和目标同时受其他变量影响时,简单相关性会有偏。要用业务知识列出共同原因、碰撞变量和中介变量,决定哪些变量应控制,哪些变量不应控制。

03

实验优先

如果特征对应产品策略或干预,可以通过 A/B 实验、随机鼓励实验或 holdout 设计估计平均处理效应。随机化能最大程度消除可观测和不可观测混淆。

04

观察数据估计

无法实验时,可以用倾向评分、匹配、IPW、回归控制、DID、工具变量、断点回归或 DML。每种方法都有假设,必须说明为什么这些假设在当前业务里相对可信。

05

稳健性验证

结果要看置信区间、平衡性、处理前趋势、安慰剂变量、不同模型设定和敏感性分析。只有在多种检查下稳定,才更接近可用的因果结论。

易错点

  • 不要把 Pearson 相关系数或 SHAP 值直接解释成因果效应。
  • 不要控制中介变量后还声称估计的是总效应。
  • 不要在没有识别假设的情况下套用观察数据方法。
  • 不要只给点估计,不报告不确定性和稳健性检查。

面试官追问

特征重要性能说明因果关系吗?

不能。特征重要性说明模型预测依赖这个特征,但可能只是相关、代理或泄漏变量,不代表干预这个特征会改变目标。

CATE 和 ATE 有什么区别?

ATE 是总体平均处理效应,CATE 是给定人群或特征条件下的处理效应。业务精细化策略通常更关心 CATE。

如何处理不可观测混淆?

可以寻找工具变量、自然实验、断点、面板数据方法,或做敏感性分析;如果无法支撑假设,就要降低因果结论强度。