真实面经题目 · 原创解析
A/B Test 中为什么常用 t 检验,它的适用前提和局限是什么?
这题考 A/B Test 的统计基础。t 检验常用于比较两组均值差异,因为它在方差未知、样本均值近似正态时能给出差异显著性判断;但前提、指标类型、样本独立性、方差差异和业务效应都必须一起说明。
真实面经题目 · 原创解析
这题考 A/B Test 的统计基础。t 检验常用于比较两组均值差异,因为它在方差未知、样本均值近似正态时能给出差异显著性判断;但前提、指标类型、样本独立性、方差差异和业务效应都必须一起说明。
A/B Test 中常用 t 检验,是因为很多实验主指标可以表达为两组样本均值的差异,比如人均阅读时长、人均消费金额、人均点击次数或每用户转化价值。我们通常不知道总体方差,只能用样本方差估计不确定性,t 检验正是用来判断“观察到的均值差异,相对于组内波动是否足够大”,从而评估差异是否可能只是随机噪声。 它成立需要几个前提。第一,实验单位要独立,用户不能严重串组,同一个用户的多次行为不能被错误当成独立样本。第二,随机分流要可靠,两组除策略外尽量可比。第三,指标的样本均值要近似正态,大样本下可以依靠中心极限定理;小样本或重尾分布要更谨慎。第四,方差处理要合适,两组方差相近可以用普通两样本 t 检验,方差不齐更适合 Welch t 检验。第五,要先定义显著性水平、检验方向、主指标和样本量,避免实验后挑指标。 但 t 检验不是所有 A/B 指标的默认答案。比例类指标如点击率、转化率常用 z 检验、卡方检验或精确检验;分布重尾的收入类指标可以考虑 bootstrap、置换检验、winsorize 或 delta method;序贯实验要用序贯检验或 Bayesian 方法;多指标多分群要控制多重比较。最后还要强调,统计显著不等于值得上线,结论必须结合效应量、置信区间、MDE、护栏指标和业务收益。
它适合比较两组样本均值是否存在显著差异,核心是把均值差除以标准误,判断差异相对随机波动是否足够大。面试时要把它和人均时长、人均金额、人均点击等用户级均值指标联系起来。
线上实验通常不知道总体方差,只能用样本方差估计,因此统计量服从 t 分布而不是简单使用标准正态,尤其小样本时更明显。样本越大,t 分布越接近正态,但标准误估计仍然是结论可信度的关键。
如果用户串组、样本比例异常、重复行为被当成独立样本或分流不随机,t 检验算出来的 p 值也不可靠。因此要先做 SRM、落桶稳定性、埋点一致性和用户级聚合检查。
均值类指标适合 t 检验;比例类指标常用 z 检验或卡方;重尾收入、留存和非正态指标要考虑 bootstrap、非参数方法或变换。
p 值只能说明随机噪声解释差异的可能性,不代表效果大小,也不代表一定值得上线。还要看置信区间、MDE、上线成本、长期风险和护栏指标,避免统计显著但业务收益很小。
可以把用户级点击率作为均值近似处理,但更常见的是用比例 z 检验、卡方检验或基于用户级聚合的稳健方法。关键是实验单位和方差估计要对。
大样本下 t 分布接近正态,t 检验和 z 检验差别会变小;但用样本方差估计标准误仍然自然,工程实现也成熟。
重尾会让均值和方差不稳定,可以先用户级聚合,再考虑 winsorize、bootstrap、置换检验、分层分析或使用更稳健的指标,并报告置信区间。
不一定。还要看提升是否达到 MDE、置信区间是否有业务意义、护栏是否恶化、实验是否有污染,以及上线成本和长期风险是否可接受。