真实面经题目 · 原创解析
特征工程中,如何量化特征与目标变量的因果关系?
量化特征与目标变量的因果关系,不能只看相关系数或特征重要性,而要定义干预、构造对照、控制混淆并估计处理效应。常见方法包括 RCT、倾向评分、DID、IV、DML 和因果图分析。
真实面经题目 · 原创解析
量化特征与目标变量的因果关系,不能只看相关系数或特征重要性,而要定义干预、构造对照、控制混淆并估计处理效应。常见方法包括 RCT、倾向评分、DID、IV、DML 和因果图分析。
我会先把特征是否可干预说清楚:如果特征只是用户属性,通常只能评估关联或异质性;如果特征对应可干预策略,就可以定义 treatment。然后画因果图找混淆变量,优先用随机实验估计 ATE 或 CATE;没有实验时可用倾向评分匹配、IPW、回归控制、DID、IV 或 DML。最后做平衡性、安慰剂和敏感性分析,避免把相关性误当因果。
因果关系需要明确如果改变这个特征会发生什么。部分特征只是描述性属性,不能直接干预;此时更适合讨论异质性或代理变量,而不是声称特征导致目标变化。
特征和目标同时受其他变量影响时,简单相关性会有偏。要用业务知识列出共同原因、碰撞变量和中介变量,决定哪些变量应控制,哪些变量不应控制。
如果特征对应产品策略或干预,可以通过 A/B 实验、随机鼓励实验或 holdout 设计估计平均处理效应。随机化能最大程度消除可观测和不可观测混淆。
无法实验时,可以用倾向评分、匹配、IPW、回归控制、DID、工具变量、断点回归或 DML。每种方法都有假设,必须说明为什么这些假设在当前业务里相对可信。
结果要看置信区间、平衡性、处理前趋势、安慰剂变量、不同模型设定和敏感性分析。只有在多种检查下稳定,才更接近可用的因果结论。
不能。特征重要性说明模型预测依赖这个特征,但可能只是相关、代理或泄漏变量,不代表干预这个特征会改变目标。
ATE 是总体平均处理效应,CATE 是给定人群或特征条件下的处理效应。业务精细化策略通常更关心 CATE。
可以寻找工具变量、自然实验、断点、面板数据方法,或做敏感性分析;如果无法支撑假设,就要降低因果结论强度。