真实面经题目 · 原创解析
因果推断中,无法获取随机对照数据时如何估计因果效应?
没有随机对照数据时估计因果效应,需要用观察数据方法尽量构造可比组。常见思路包括倾向评分、匹配、分层、回归控制、DID、工具变量、断点回归、DML 和敏感性分析,但结论可信度依赖假设。
真实面经题目 · 原创解析
没有随机对照数据时估计因果效应,需要用观察数据方法尽量构造可比组。常见思路包括倾向评分、匹配、分层、回归控制、DID、工具变量、断点回归、DML 和敏感性分析,但结论可信度依赖假设。
没有 RCT 时,我会先明确 treatment、outcome、时间窗口和可能混淆变量;然后画因果图判断偏差来源。若可观测混淆比较充分,可以用回归控制、倾向评分匹配、IPW、分层或 DML 估计处理效应;如果有政策变化或自然实验,可以考虑 DID、断点回归或工具变量。最后一定要做平衡性检查、安慰剂检验、敏感性分析和线上小流量验证,因为观察数据方法依赖更强假设,不能当作随机实验。
要明确 treatment 是什么、outcome 如何衡量、观察窗口多长、样本进入机制是什么。没有清晰问题定义,后续方法只是在相关性上做复杂建模。
观察数据没有随机分配,实验组和对照组可能在用户活跃度、历史偏好、渠道和时间趋势上不同。需要用因果图列出可观测混淆、不可观测混淆和选择偏差。
如果混淆变量可观测,可以用倾向评分匹配、IPW、分层、回归控制或双重稳健方法,让处理组和对照组在关键特征上更可比,再估计平均处理效应。
如果存在政策变更、阈值规则或外生冲击,可以考虑 DID、断点回归或工具变量。这些方法不要求完全随机,但各自有平行趋势、阈值附近可比或工具变量有效性等假设。
需要检查匹配后平衡性、共同支撑、处理前趋势、安慰剂 outcome 和不同模型设定下结果是否稳定。观察数据估计最好作为决策依据之一,再用小流量实验验证关键结论。
核心是假设在控制可观测变量后,处理分配近似随机,也就是没有未观测混淆。同时还需要处理组和对照组有共同支撑区域。
适合有政策或产品变更,并且能找到受影响组和未受影响组的场景。关键假设是没有处理时两组会保持平行趋势。
观察数据方法依赖可观测混淆充分、模型设定合理或准实验假设成立。不可观测偏差可能仍存在,因此需要敏感性分析和后续实验验证。