A/B Test 的样本量应如何估算？｜美团商业分析面经解析

60 秒回答模板

A/B Test 的样本量估算，本质是在实验开始前回答一个问题：我们希望有多大概率发现一个业务上值得关注的提升。第一步要明确主指标和实验单位，例如用户级转化率、订单均价、GMV、人均访问时长或商家留存，并确认随机化单位是用户、设备、门店、城市还是订单。样本量必须围绕主指标估算，不能用一个泛泛的 PV 数代替。第二步确定几个统计输入。基准水平来自历史数据或预实验，比如当前转化率是 10%，客单价均值和方差是多少。最小可检测效果 MDE 来自业务判断，比如提升 0.5 个百分点才值得上线，或者提升 2% 相对值才覆盖改造成本。显著性水平 alpha 通常取 0.05，统计功效 power 常取 80% 或 90%，表示真实存在 MDE 时实验能检出的概率。连续指标需要均值和方差，比例指标需要基准率，重尾指标还要考虑 winsorize、变换或 bootstrap 估计。常见近似公式可以这样解释：两组等比例分流、比较均值时，每组样本量约等于 2 × (Z_alpha/2 + Z_power)^2 × 方差 / MDE^2；比较转化率时，用 p(1-p) 近似方差。实际工作还要考虑分流比例不均、聚类随机化、用户重复访问、季节性、流量可用量、多重检验、实验周期和提前偷看。最后输出的不是一个孤立数字，而是样本量、预计实验天数、可检测的最小效果、风险假设和指标口径。

考点 先有主指标

难度 真实面经题

回答目标 让面试官看到你能把样本量估算变成可执行的实验设计，而不是只会套统计公式。

深入解析

先定主指标和单位

样本量服务于主指标，主指标不同需要的样本量会差很多。用户级转化、订单金额、留存率和商家活跃的方差不同，随机化单位也必须和分析单位保持一致或做修正。

MDE 来自业务价值

最小可检测效果不是统计人员随便填的数，而是业务认为值得决策的最小提升。MDE 越小，样本量通常按平方级增加，因此要在灵敏度和实验成本之间取舍。

方差决定难度

连续指标要看历史均值、标准差和分布形态，比例指标要看基准率。GMV、客单价等重尾指标方差很大，常常需要更大样本或稳健处理，否则实验很难检出效果。

显著性和功效要成对说明

alpha 控制误判上线的风险，power 控制漏掉真实效果的风险。只说 95% 置信度不够，还要说明希望达到 80% 或 90% 的检出能力。

业务约束会修正公式

真实实验要考虑流量上限、分流比例、聚类随机化、跨天波动、多重指标、实验互斥和提前停止规则。公式给初始估算，实验设计还要做可执行性校验。

易错点

只背公式，不说明主指标、MDE、alpha、power 和方差来源。
把 PV、订单数和用户数混用，随机化单位和分析单位不一致。
MDE 随便设，没有结合业务收益和实验成本。
忽略重尾分布、聚类效应、季节性和分流比例。
实验过程中反复看显著性并提前停止，却不做序贯检验控制。

面试官追问

为什么不能实验跑完后再看样本够不够？

事后看样本容易受观察结果影响，增加选择性报告和误判风险。样本量应在实验前根据主指标、MDE、alpha、power 和方差确定。

流量不足时怎么办？

可以放宽 MDE、延长实验周期、提高分流比例、选择方差更小的主指标、做 CUPED 等方差缩减，或承认当前流量无法支持该实验结论。

多个指标都要显著，样本量按哪个算？

通常按唯一主指标估算样本量，其他作为诊断或护栏指标。若多个指标都要作为决策依据，需要考虑多重检验和更高样本需求。

为什么重尾指标样本量会很大？

重尾会让方差变大，少数极端用户或订单影响均值稳定性。可以预先定义 winsorize、log 变换、分层分析或使用更稳健的指标。