真实面经题目 · 原创解析
因果推断中,混淆变量和中介变量有什么区别?
混淆变量和中介变量的区别在于因果位置不同:混淆变量同时影响处理和结果,需要控制;中介变量位于处理到结果的路径上,解释作用机制,是否控制取决于要估计总效应还是直接效应。
真实面经题目 · 原创解析
混淆变量和中介变量的区别在于因果位置不同:混淆变量同时影响处理和结果,需要控制;中介变量位于处理到结果的路径上,解释作用机制,是否控制取决于要估计总效应还是直接效应。
混淆变量是处理变量之前的共同原因,它同时影响 treatment 和 outcome,如果不控制会让因果效应估计有偏。中介变量是 treatment 之后发生的变量,位于 treatment 影响 outcome 的路径上,用来解释影响是怎么传导的。估计总效应时通常不要控制中介变量,否则会截断一部分真实效应;估计直接效应时才会考虑控制中介。最安全的回答是画出因果顺序:Confounder -> Treatment 和 Outcome,Treatment -> Mediator -> Outcome。
混淆变量发生在处理变量之前或至少不是由处理变量导致,它会同时影响处理选择和最终结果。中介变量发生在处理之后,是处理影响结果的传导环节。
如果一个变量同时影响是否接受 treatment 和 outcome,就会让实验组和对照组不可比。控制混淆变量的目的是让两组在关键背景因素上更接近,从而减少偏差。
中介变量回答的是 treatment 为什么会影响 outcome。例如营销触达先提升点击,再提升购买,点击可能就是中介。它不是简单噪声,而是效应传导路径的一部分。
估计总效应时控制中介变量会把 treatment 通过中介产生的那部分影响拿掉,导致估计偏小。估计直接效应时才需要在明确假设下分析中介路径。
同一个变量在不同业务问题里可能位置不同。面试中要先说明时间顺序和因果图,再决定它是混淆、 mediator,还是碰撞变量,不能只凭字段名判断。
如果目标是估计总效应,中介变量承载了 treatment 的一部分影响。控制它会把这条路径屏蔽掉,得到的不是总效应。
需要领域知识、时间顺序和因果图判断。它应该是 treatment 之前的共同原因,并且同时影响 treatment 分配和 outcome。
混淆变量是共同原因,通常需要控制;碰撞变量是两个变量的共同结果,错误控制可能打开虚假的相关路径,引入偏差。