特征工程中，如何量化特征与目标变量的因果关系？｜滴滴算法面经解析

60 秒回答模板

我会先把特征是否可干预说清楚：如果特征只是用户属性，通常只能评估关联或异质性；如果特征对应可干预策略，就可以定义 treatment。然后画因果图找混淆变量，优先用随机实验估计 ATE 或 CATE；没有实验时可用倾向评分匹配、IPW、回归控制、DID、IV 或 DML。最后做平衡性、安慰剂和敏感性分析，避免把相关性误当因果。

考点 先看可干预

难度 算法岗真实面经题

回答目标 讲清方法、取舍和追问

深入解析

定义可干预特征

因果关系需要明确如果改变这个特征会发生什么。部分特征只是描述性属性，不能直接干预；此时更适合讨论异质性或代理变量，而不是声称特征导致目标变化。

画因果图找混淆

特征和目标同时受其他变量影响时，简单相关性会有偏。要用业务知识列出共同原因、碰撞变量和中介变量，决定哪些变量应控制，哪些变量不应控制。

实验优先

如果特征对应产品策略或干预，可以通过 A/B 实验、随机鼓励实验或 holdout 设计估计平均处理效应。随机化能最大程度消除可观测和不可观测混淆。

观察数据估计

无法实验时，可以用倾向评分、匹配、IPW、回归控制、DID、工具变量、断点回归或 DML。每种方法都有假设，必须说明为什么这些假设在当前业务里相对可信。

稳健性验证

结果要看置信区间、平衡性、处理前趋势、安慰剂变量、不同模型设定和敏感性分析。只有在多种检查下稳定，才更接近可用的因果结论。

易错点

不要把 Pearson 相关系数或 SHAP 值直接解释成因果效应。
不要控制中介变量后还声称估计的是总效应。
不要在没有识别假设的情况下套用观察数据方法。
不要只给点估计，不报告不确定性和稳健性检查。

面试官追问

特征重要性能说明因果关系吗？

不能。特征重要性说明模型预测依赖这个特征，但可能只是相关、代理或泄漏变量，不代表干预这个特征会改变目标。

CATE 和 ATE 有什么区别？

ATE 是总体平均处理效应，CATE 是给定人群或特征条件下的处理效应。业务精细化策略通常更关心 CATE。

如何处理不可观测混淆？

可以寻找工具变量、自然实验、断点、面板数据方法，或做敏感性分析；如果无法支撑假设，就要降低因果结论强度。