60 秒回答模板

我会先定义原假设和备择假设,例如新方案对转化率没有提升 versus 有提升;确定主指标、实验单位、显著性水平、MDE、检验方向和样本量。实验结束后先做数据质量检查:分流是否随机、样本比例是否符合预期、曝光是否正确、用户是否串组、埋点是否一致。然后根据指标类型选择方法:转化率这类比例指标可用 z 检验、卡方检验或精确检验;均值类指标可用 t 检验、bootstrap 或非参数方法;留存和收入等偏态指标要关注分布和方差。判断时不能只看 p < 0.05,还要看置信区间是否排除零、效应量是否达到 MDE、是否有多重检验和提前 peeking 问题。最后结合护栏指标和业务成本决定是否上线。

考点 显著性前置
难度 真实面经高频题
回答目标 讲清机制、边界和追问

深入解析

01

实验前先定义判断标准

显著性不是实验后临时找出来的。实验前要确定主指标、最小可检测效果、显著性水平、统计功效、单侧或双侧检验、实验单位和观察窗口。否则容易在一堆指标里挑出偶然显著的结果,或者因为样本不足把真实提升误判为无效。

02

先检查随机化质量

在计算显著性前,要确认 A 组和 B 组可比。检查样本比例是否接近预设、关键画像是否均衡、曝光日志是否完整、用户是否重复进入不同组、版本和地域是否偏斜。若随机化失败,p 值再漂亮也不能支撑因果结论。

03

按指标类型选检验

不同指标适用方法不同。点击率、转化率、留存率是比例问题,常用比例 z 检验、卡方检验或 Fisher 精确检验;客单价、时长、收入是均值或分布问题,常用 t 检验、Welch t 检验、bootstrap 或分位数分析。选择方法要匹配数据分布、样本量和独立性假设。

04

结合 p 值和置信区间

p 值表示在原假设成立时观察到当前或更极端结果的概率,并不表示方案有多大概率有效。置信区间能告诉我们效果范围,例如提升可能在 0.2% 到 1.1% 之间。一个结果即使统计显著,如果提升小于成本或置信区间太宽,也未必值得上线。

05

防止实验误判

常见误判来自提前停止、反复看数、多指标捞显著、污染串组、网络效应、样本未独立、异常用户影响和新奇效应。严谨做法是固定实验周期,控制多重检验,保留护栏指标,必要时做分层分析和复现实验,避免把随机波动当作策略收益。

易错点

  • 实验前没有定义主指标和 MDE,实验后挑显著指标讲故事。
  • 只看 p 值,不看置信区间、效应量和业务收益。
  • 忽略样本比例不匹配、串组、曝光失败和埋点差异。
  • 实验期间反复看数并提前停止,却仍按普通显著性解释结果。

面试官追问

p 值小于 0.05 代表什么?

它表示如果原假设为真,观察到当前差异或更极端差异的概率低于 5%。它不表示新方案有 95% 的概率更好,也不表示效果大小有多大,所以还要看置信区间和业务效应。

为什么要做样本比例不匹配检查?

如果预期 50/50 分流,实际却明显偏离,可能说明分流、曝光、日志或过滤逻辑有问题。此时两组不再可靠可比,显著性检验的前提被破坏。

实验没显著能说明方案无效吗?

不能直接说明。可能真实效果小于 MDE,也可能样本量不足、方差过大、实验周期太短或指标噪声太高。应结合功效、置信区间和业务可接受提升判断是否继续实验或放弃。

多指标都看时为什么要校正?

看得越多,偶然显著的概率越高。若同时检验很多指标或很多分群,需要控制多重比较,例如预先指定主指标、限制探索性分析,或使用 Bonferroni、FDR 等校正方法。