60 秒回答模板

A/B Test 的样本量估算,本质是在实验开始前回答一个问题:我们希望有多大概率发现一个业务上值得关注的提升。第一步要明确主指标和实验单位,例如用户级转化率、订单均价、GMV、人均访问时长或商家留存,并确认随机化单位是用户、设备、门店、城市还是订单。样本量必须围绕主指标估算,不能用一个泛泛的 PV 数代替。 第二步确定几个统计输入。基准水平来自历史数据或预实验,比如当前转化率是 10%,客单价均值和方差是多少。最小可检测效果 MDE 来自业务判断,比如提升 0.5 个百分点才值得上线,或者提升 2% 相对值才覆盖改造成本。显著性水平 alpha 通常取 0.05,统计功效 power 常取 80% 或 90%,表示真实存在 MDE 时实验能检出的概率。连续指标需要均值和方差,比例指标需要基准率,重尾指标还要考虑 winsorize、变换或 bootstrap 估计。 常见近似公式可以这样解释:两组等比例分流、比较均值时,每组样本量约等于 2 × (Z_alpha/2 + Z_power)^2 × 方差 / MDE^2;比较转化率时,用 p(1-p) 近似方差。实际工作还要考虑分流比例不均、聚类随机化、用户重复访问、季节性、流量可用量、多重检验、实验周期和提前偷看。最后输出的不是一个孤立数字,而是样本量、预计实验天数、可检测的最小效果、风险假设和指标口径。

考点 先有主指标
难度 真实面经题
回答目标 让面试官看到你能把样本量估算变成可执行的实验设计,而不是只会套统计公式。

深入解析

01

先定主指标和单位

样本量服务于主指标,主指标不同需要的样本量会差很多。用户级转化、订单金额、留存率和商家活跃的方差不同,随机化单位也必须和分析单位保持一致或做修正。

02

MDE 来自业务价值

最小可检测效果不是统计人员随便填的数,而是业务认为值得决策的最小提升。MDE 越小,样本量通常按平方级增加,因此要在灵敏度和实验成本之间取舍。

03

方差决定难度

连续指标要看历史均值、标准差和分布形态,比例指标要看基准率。GMV、客单价等重尾指标方差很大,常常需要更大样本或稳健处理,否则实验很难检出效果。

04

显著性和功效要成对说明

alpha 控制误判上线的风险,power 控制漏掉真实效果的风险。只说 95% 置信度不够,还要说明希望达到 80% 或 90% 的检出能力。

05

业务约束会修正公式

真实实验要考虑流量上限、分流比例、聚类随机化、跨天波动、多重指标、实验互斥和提前停止规则。公式给初始估算,实验设计还要做可执行性校验。

易错点

  • 只背公式,不说明主指标、MDE、alpha、power 和方差来源。
  • 把 PV、订单数和用户数混用,随机化单位和分析单位不一致。
  • MDE 随便设,没有结合业务收益和实验成本。
  • 忽略重尾分布、聚类效应、季节性和分流比例。
  • 实验过程中反复看显著性并提前停止,却不做序贯检验控制。

面试官追问

为什么不能实验跑完后再看样本够不够?

事后看样本容易受观察结果影响,增加选择性报告和误判风险。样本量应在实验前根据主指标、MDE、alpha、power 和方差确定。

流量不足时怎么办?

可以放宽 MDE、延长实验周期、提高分流比例、选择方差更小的主指标、做 CUPED 等方差缩减,或承认当前流量无法支持该实验结论。

多个指标都要显著,样本量按哪个算?

通常按唯一主指标估算样本量,其他作为诊断或护栏指标。若多个指标都要作为决策依据,需要考虑多重检验和更高样本需求。

为什么重尾指标样本量会很大?

重尾会让方差变大,少数极端用户或订单影响均值稳定性。可以预先定义 winsorize、log 变换、分层分析或使用更稳健的指标。