真实面经题目 · 原创解析

因果推断中,混淆变量和中介变量有什么区别?

混淆变量和中介变量的区别在于因果位置不同:混淆变量同时影响处理和结果,需要控制;中介变量位于处理到结果的路径上,解释作用机制,是否控制取决于要估计总效应还是直接效应。

出现于:滴滴 · 算法

60 秒回答模板

混淆变量是处理变量之前的共同原因,它同时影响 treatment 和 outcome,如果不控制会让因果效应估计有偏。中介变量是 treatment 之后发生的变量,位于 treatment 影响 outcome 的路径上,用来解释影响是怎么传导的。估计总效应时通常不要控制中介变量,否则会截断一部分真实效应;估计直接效应时才会考虑控制中介。最安全的回答是画出因果顺序:Confounder -> Treatment 和 Outcome,Treatment -> Mediator -> Outcome。

考点 混淆在前
难度 算法岗真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

先看因果位置

混淆变量发生在处理变量之前或至少不是由处理变量导致,它会同时影响处理选择和最终结果。中介变量发生在处理之后,是处理影响结果的传导环节。

02

混淆变量要控制

如果一个变量同时影响是否接受 treatment 和 outcome,就会让实验组和对照组不可比。控制混淆变量的目的是让两组在关键背景因素上更接近,从而减少偏差。

03

中介变量解释机制

中介变量回答的是 treatment 为什么会影响 outcome。例如营销触达先提升点击,再提升购买,点击可能就是中介。它不是简单噪声,而是效应传导路径的一部分。

04

控制策略不同

估计总效应时控制中介变量会把 treatment 通过中介产生的那部分影响拿掉,导致估计偏小。估计直接效应时才需要在明确假设下分析中介路径。

05

依赖因果图判断

同一个变量在不同业务问题里可能位置不同。面试中要先说明时间顺序和因果图,再决定它是混淆、 mediator,还是碰撞变量,不能只凭字段名判断。

易错点

  • 不要把所有相关变量都当成混淆变量,关键是因果位置和共同原因关系。
  • 不要在估计总效应时随手控制中介变量。
  • 不要忽略时间顺序,处理之后才出现的变量通常不应作为普通混淆项。
  • 不要只按字段名判断变量类型,要结合业务机制和因果图。

面试官追问

为什么控制中介变量可能有问题?

如果目标是估计总效应,中介变量承载了 treatment 的一部分影响。控制它会把这条路径屏蔽掉,得到的不是总效应。

如何识别混淆变量?

需要领域知识、时间顺序和因果图判断。它应该是 treatment 之前的共同原因,并且同时影响 treatment 分配和 outcome。

混淆变量和碰撞变量有什么区别?

混淆变量是共同原因,通常需要控制;碰撞变量是两个变量的共同结果,错误控制可能打开虚假的相关路径,引入偏差。