因果推断中，混淆变量和中介变量有什么区别？｜滴滴算法面经解析

60 秒回答模板

混淆变量是处理变量之前的共同原因，它同时影响 treatment 和 outcome，如果不控制会让因果效应估计有偏。中介变量是 treatment 之后发生的变量，位于 treatment 影响 outcome 的路径上，用来解释影响是怎么传导的。估计总效应时通常不要控制中介变量，否则会截断一部分真实效应；估计直接效应时才会考虑控制中介。最安全的回答是画出因果顺序：Confounder -> Treatment 和 Outcome，Treatment -> Mediator -> Outcome。

考点 混淆在前

难度 算法岗真实面经题

回答目标 讲清方法、取舍和追问

深入解析

先看因果位置

混淆变量发生在处理变量之前或至少不是由处理变量导致，它会同时影响处理选择和最终结果。中介变量发生在处理之后，是处理影响结果的传导环节。

混淆变量要控制

如果一个变量同时影响是否接受 treatment 和 outcome，就会让实验组和对照组不可比。控制混淆变量的目的是让两组在关键背景因素上更接近，从而减少偏差。

中介变量解释机制

中介变量回答的是 treatment 为什么会影响 outcome。例如营销触达先提升点击，再提升购买，点击可能就是中介。它不是简单噪声，而是效应传导路径的一部分。

控制策略不同

估计总效应时控制中介变量会把 treatment 通过中介产生的那部分影响拿掉，导致估计偏小。估计直接效应时才需要在明确假设下分析中介路径。

依赖因果图判断

同一个变量在不同业务问题里可能位置不同。面试中要先说明时间顺序和因果图，再决定它是混淆、 mediator，还是碰撞变量，不能只凭字段名判断。

易错点

不要把所有相关变量都当成混淆变量，关键是因果位置和共同原因关系。
不要在估计总效应时随手控制中介变量。
不要忽略时间顺序，处理之后才出现的变量通常不应作为普通混淆项。
不要只按字段名判断变量类型，要结合业务机制和因果图。

面试官追问

为什么控制中介变量可能有问题？

如果目标是估计总效应，中介变量承载了 treatment 的一部分影响。控制它会把这条路径屏蔽掉，得到的不是总效应。

如何识别混淆变量？

需要领域知识、时间顺序和因果图判断。它应该是 treatment 之前的共同原因，并且同时影响 treatment 分配和 outcome。

混淆变量和碰撞变量有什么区别？

混淆变量是共同原因，通常需要控制；碰撞变量是两个变量的共同结果，错误控制可能打开虚假的相关路径，引入偏差。