真实面经题目 · 原创解析
A/B Test 中如何判断差异是否显著?
A/B Test 判断显著性,要先明确假设、主指标、样本量和实验单位,再用合适的统计检验计算 p 值、置信区间和效应量。显著不等于值得上线,还要检查随机化、样本比例、实验污染、护栏指标和业务收益。
真实面经题目 · 原创解析
A/B Test 判断显著性,要先明确假设、主指标、样本量和实验单位,再用合适的统计检验计算 p 值、置信区间和效应量。显著不等于值得上线,还要检查随机化、样本比例、实验污染、护栏指标和业务收益。
我会先定义原假设和备择假设,例如新方案对转化率没有提升 versus 有提升;确定主指标、实验单位、显著性水平、MDE、检验方向和样本量。实验结束后先做数据质量检查:分流是否随机、样本比例是否符合预期、曝光是否正确、用户是否串组、埋点是否一致。然后根据指标类型选择方法:转化率这类比例指标可用 z 检验、卡方检验或精确检验;均值类指标可用 t 检验、bootstrap 或非参数方法;留存和收入等偏态指标要关注分布和方差。判断时不能只看 p < 0.05,还要看置信区间是否排除零、效应量是否达到 MDE、是否有多重检验和提前 peeking 问题。最后结合护栏指标和业务成本决定是否上线。
显著性不是实验后临时找出来的。实验前要确定主指标、最小可检测效果、显著性水平、统计功效、单侧或双侧检验、实验单位和观察窗口。否则容易在一堆指标里挑出偶然显著的结果,或者因为样本不足把真实提升误判为无效。
在计算显著性前,要确认 A 组和 B 组可比。检查样本比例是否接近预设、关键画像是否均衡、曝光日志是否完整、用户是否重复进入不同组、版本和地域是否偏斜。若随机化失败,p 值再漂亮也不能支撑因果结论。
不同指标适用方法不同。点击率、转化率、留存率是比例问题,常用比例 z 检验、卡方检验或 Fisher 精确检验;客单价、时长、收入是均值或分布问题,常用 t 检验、Welch t 检验、bootstrap 或分位数分析。选择方法要匹配数据分布、样本量和独立性假设。
p 值表示在原假设成立时观察到当前或更极端结果的概率,并不表示方案有多大概率有效。置信区间能告诉我们效果范围,例如提升可能在 0.2% 到 1.1% 之间。一个结果即使统计显著,如果提升小于成本或置信区间太宽,也未必值得上线。
常见误判来自提前停止、反复看数、多指标捞显著、污染串组、网络效应、样本未独立、异常用户影响和新奇效应。严谨做法是固定实验周期,控制多重检验,保留护栏指标,必要时做分层分析和复现实验,避免把随机波动当作策略收益。
它表示如果原假设为真,观察到当前差异或更极端差异的概率低于 5%。它不表示新方案有 95% 的概率更好,也不表示效果大小有多大,所以还要看置信区间和业务效应。
如果预期 50/50 分流,实际却明显偏离,可能说明分流、曝光、日志或过滤逻辑有问题。此时两组不再可靠可比,显著性检验的前提被破坏。
不能直接说明。可能真实效果小于 MDE,也可能样本量不足、方差过大、实验周期太短或指标噪声太高。应结合功效、置信区间和业务可接受提升判断是否继续实验或放弃。
看得越多,偶然显著的概率越高。若同时检验很多指标或很多分群,需要控制多重比较,例如预先指定主指标、限制探索性分析,或使用 Bonferroni、FDR 等校正方法。