A/B Test 中如何判断差异是否显著？｜字节跳动数据分析面经解析

60 秒回答模板

我会先定义原假设和备择假设，例如新方案对转化率没有提升 versus 有提升；确定主指标、实验单位、显著性水平、MDE、检验方向和样本量。实验结束后先做数据质量检查：分流是否随机、样本比例是否符合预期、曝光是否正确、用户是否串组、埋点是否一致。然后根据指标类型选择方法：转化率这类比例指标可用 z 检验、卡方检验或精确检验；均值类指标可用 t 检验、bootstrap 或非参数方法；留存和收入等偏态指标要关注分布和方差。判断时不能只看 p < 0.05，还要看置信区间是否排除零、效应量是否达到 MDE、是否有多重检验和提前 peeking 问题。最后结合护栏指标和业务成本决定是否上线。

考点 实验前先定义判断标准

主线 先检查随机化质量

易错点 实验前没有定义主指标和 MDE，实验后挑显著指标讲故事。

深入解析

实验前先定义判断标准

显著性不是实验后临时找出来的。实验前要确定主指标、最小可检测效果、显著性水平、统计功效、单侧或双侧检验、实验单位和观察窗口。否则容易在一堆指标里挑出偶然显著的结果，或者因为样本不足把真实提升误判为无效。

先检查随机化质量

在计算显著性前，要确认 A 组和 B 组可比。检查样本比例是否接近预设、关键画像是否均衡、曝光日志是否完整、用户是否重复进入不同组、版本和地域是否偏斜。若随机化失败，p 值再漂亮也不能支撑因果结论。

按指标类型选检验

不同指标适用方法不同。点击率、转化率、留存率是比例问题，常用比例 z 检验、卡方检验或 Fisher 精确检验；客单价、时长、收入是均值或分布问题，常用 t 检验、Welch t 检验、bootstrap 或分位数分析。选择方法要匹配数据分布、样本量和独立性假设。

结合 p 值和置信区间

p 值表示在原假设成立时观察到当前或更极端结果的概率，并不表示方案有多大概率有效。置信区间能告诉我们效果范围，例如提升可能在 0.2% 到 1.1% 之间。一个结果即使统计显著，如果提升小于成本或置信区间太宽，也未必值得上线。

防止实验误判

常见误判来自提前停止、反复看数、多指标捞显著、污染串组、网络效应、样本未独立、异常用户影响和新奇效应。严谨做法是固定实验周期，控制多重检验，保留护栏指标，必要时做分层分析和复现实验，避免把随机波动当作策略收益。

易错点

实验前没有定义主指标和 MDE，实验后挑显著指标讲故事。
只看 p 值，不看置信区间、效应量和业务收益。
忽略样本比例不匹配、串组、曝光失败和埋点差异。
实验期间反复看数并提前停止，却仍按普通显著性解释结果。

面试官追问

p 值小于 0.05 代表什么？

它表示如果原假设为真，观察到当前差异或更极端差异的概率低于 5%。它不表示新方案有 95% 的概率更好，也不表示效果大小有多大，所以还要看置信区间和业务效应。

为什么要做样本比例不匹配检查？

如果预期 50/50 分流，实际却明显偏离，可能说明分流、曝光、日志或过滤逻辑有问题。此时两组不再可靠可比，显著性检验的前提被破坏。

实验没显著能说明方案无效吗？

不能直接说明。可能真实效果小于 MDE，也可能样本量不足、方差过大、实验周期太短或指标噪声太高。应结合功效、置信区间和业务可接受提升判断是否继续实验或放弃。

多指标都看时为什么要校正？

看得越多，偶然显著的概率越高。若同时检验很多指标或很多分群，需要控制多重比较，例如预先指定主指标、限制探索性分析，或使用 Bonferroni、FDR 等校正方法。