在非随机实验或 A/B 分析中，Matching 方法如何构造可比样本并降低选择偏差？｜美团商业分析面经解析

60 秒回答模板

Matching 方法通常用于无法完全随机分流的场景，例如某个城市先上线新策略、部分商家自愿参加活动、某类用户被运营触达。此时实验组和对照组本来就可能不同，直接比较转化率或 GMV 会把人群差异误当成策略效果。Matching 的目标是用处理发生前的特征，为每个实验对象找到相似的对照对象，让两组在可观测维度上尽量可比。具体流程可以分五步。第一，定义 treatment、control、观察窗口和结果指标，并确保匹配变量都来自处理前，不能把处理后的行为放进匹配特征。第二，选择混杂变量，比如历史消费频次、客单价、活跃天数、城市、品类、会员等级、商家规模、历史增长趋势等，这些变量既影响是否进入实验组，也影响结果。第三，选择匹配方法，可以用精确匹配、最近邻匹配、半径匹配、倾向得分匹配、分层匹配或加权方法。第四，做平衡性诊断，比较匹配后两组协变量的标准化差异、分布重叠和样本损失，常用 SMD 是否低于 0.1 作为参考。第五，在匹配样本上估计 ATT 或 ATE，并用稳健标准误、bootstrap 或分层回归给出置信区间。回答时要强调边界：Matching 不是让非随机实验变成真正随机实验，它只能减少可观测选择偏差。如果存在不可观测因素，例如用户动机、商家经营能力或运营重点倾斜，仍可能有残余偏差。因此结论要结合平衡性、重叠性、敏感性分析、安慰剂检验和业务机制判断。

考点 目标是构造可比组

难度 真实面经题

回答目标 让面试官看到你理解非随机实验的因果风险，能用 Matching 构造可比样本并清楚说明结论边界。

深入解析

先识别选择偏差

非随机实验里，进入实验组的人可能本来就更活跃、更高价值或更容易转化。Matching 的价值在于先承认两组不可比，再用处理前特征构造更接近的对照样本。

只用处理前变量

匹配变量必须来自策略生效前，例如历史活跃、历史消费、城市品类和用户等级。把处理后的点击、订单或留存放进匹配，会控制掉真实效果甚至引入偏差。

方法按场景选择

维度少且离散时可用精确匹配，维度多时常用倾向得分或最近邻匹配；还可以设置 caliper 限制距离，避免为了保留样本而匹配到差异很大的对象。

平衡性必须验证

匹配完成不是结束，要检查协变量分布是否接近、SMD 是否明显下降、倾向得分是否有重叠、哪些样本被丢弃。没有平衡性诊断，匹配结果很难可信。

结论要带边界

Matching 只能处理观测到的混杂因素。最终报告要说明估计的是 ATT 还是 ATE，样本覆盖范围如何，是否存在不可观测偏差，并配合稳健性和敏感性分析。

易错点

直接比较实验组和对照组均值，不处理进入实验组的选择偏差。
把处理后的行为变量用于匹配，导致因果链路被错误控制。
只做倾向得分模型，不检查匹配后的协变量平衡。
为了保留样本放宽匹配距离，导致对照组并不可比。
把 Matching 结论说成随机实验结论，忽略不可观测混杂。

面试官追问

倾向得分匹配中的倾向得分是什么？

倾向得分是样本在处理前特征条件下进入实验组的概率。它把多维协变量压缩成一个分数，便于为实验组寻找进入概率相近的对照样本。

匹配后样本变少怎么办？

样本减少说明可比样本有限。可以调整 caliper、改用加权或分层方法，但不能为了保留样本牺牲可比性。报告中要说明外推范围变窄。

如何判断匹配做得好不好？

看匹配前后协变量标准化差异是否下降、分布是否重叠、关键业务变量是否平衡、极端样本是否被合理剔除，以及结果对匹配方法是否稳健。

Matching 和随机实验相比有什么不足？

随机实验能同时平衡可观测和不可观测因素，Matching 只能控制已记录的处理前变量。如果关键混杂没被观测到，估计仍可能偏。