真实面经题目 · 原创解析
在非随机实验或 A/B 分析中,Matching 方法如何构造可比样本并降低选择偏差?
这题考非随机实验分析能力。Matching 的核心是用处理前特征为实验组找到可比对照组,降低选择偏差,但它只能控制可观测混杂,必须配合重叠性、平衡性诊断和敏感性分析。
真实面经题目 · 原创解析
这题考非随机实验分析能力。Matching 的核心是用处理前特征为实验组找到可比对照组,降低选择偏差,但它只能控制可观测混杂,必须配合重叠性、平衡性诊断和敏感性分析。
Matching 方法通常用于无法完全随机分流的场景,例如某个城市先上线新策略、部分商家自愿参加活动、某类用户被运营触达。此时实验组和对照组本来就可能不同,直接比较转化率或 GMV 会把人群差异误当成策略效果。Matching 的目标是用处理发生前的特征,为每个实验对象找到相似的对照对象,让两组在可观测维度上尽量可比。 具体流程可以分五步。第一,定义 treatment、control、观察窗口和结果指标,并确保匹配变量都来自处理前,不能把处理后的行为放进匹配特征。第二,选择混杂变量,比如历史消费频次、客单价、活跃天数、城市、品类、会员等级、商家规模、历史增长趋势等,这些变量既影响是否进入实验组,也影响结果。第三,选择匹配方法,可以用精确匹配、最近邻匹配、半径匹配、倾向得分匹配、分层匹配或加权方法。第四,做平衡性诊断,比较匹配后两组协变量的标准化差异、分布重叠和样本损失,常用 SMD 是否低于 0.1 作为参考。第五,在匹配样本上估计 ATT 或 ATE,并用稳健标准误、bootstrap 或分层回归给出置信区间。 回答时要强调边界:Matching 不是让非随机实验变成真正随机实验,它只能减少可观测选择偏差。如果存在不可观测因素,例如用户动机、商家经营能力或运营重点倾斜,仍可能有残余偏差。因此结论要结合平衡性、重叠性、敏感性分析、安慰剂检验和业务机制判断。
非随机实验里,进入实验组的人可能本来就更活跃、更高价值或更容易转化。Matching 的价值在于先承认两组不可比,再用处理前特征构造更接近的对照样本。
匹配变量必须来自策略生效前,例如历史活跃、历史消费、城市品类和用户等级。把处理后的点击、订单或留存放进匹配,会控制掉真实效果甚至引入偏差。
维度少且离散时可用精确匹配,维度多时常用倾向得分或最近邻匹配;还可以设置 caliper 限制距离,避免为了保留样本而匹配到差异很大的对象。
匹配完成不是结束,要检查协变量分布是否接近、SMD 是否明显下降、倾向得分是否有重叠、哪些样本被丢弃。没有平衡性诊断,匹配结果很难可信。
Matching 只能处理观测到的混杂因素。最终报告要说明估计的是 ATT 还是 ATE,样本覆盖范围如何,是否存在不可观测偏差,并配合稳健性和敏感性分析。
倾向得分是样本在处理前特征条件下进入实验组的概率。它把多维协变量压缩成一个分数,便于为实验组寻找进入概率相近的对照样本。
样本减少说明可比样本有限。可以调整 caliper、改用加权或分层方法,但不能为了保留样本牺牲可比性。报告中要说明外推范围变窄。
看匹配前后协变量标准化差异是否下降、分布是否重叠、关键业务变量是否平衡、极端样本是否被合理剔除,以及结果对匹配方法是否稳健。
随机实验能同时平衡可观测和不可观测因素,Matching 只能控制已记录的处理前变量。如果关键混杂没被观测到,估计仍可能偏。