真实面经题目 · 原创解析
A/B Test 的样本量应如何估算?
这题考 A/B Test 基础统计能力和业务实验意识。好的回答要从目标指标、基准水平、最小可检测效果、显著性水平、统计功效、方差、分流比例和实验单位讲起,而不是只背一个公式。
真实面经题目 · 原创解析
这题考 A/B Test 基础统计能力和业务实验意识。好的回答要从目标指标、基准水平、最小可检测效果、显著性水平、统计功效、方差、分流比例和实验单位讲起,而不是只背一个公式。
A/B Test 的样本量估算,本质是在实验开始前回答一个问题:我们希望有多大概率发现一个业务上值得关注的提升。第一步要明确主指标和实验单位,例如用户级转化率、订单均价、GMV、人均访问时长或商家留存,并确认随机化单位是用户、设备、门店、城市还是订单。样本量必须围绕主指标估算,不能用一个泛泛的 PV 数代替。 第二步确定几个统计输入。基准水平来自历史数据或预实验,比如当前转化率是 10%,客单价均值和方差是多少。最小可检测效果 MDE 来自业务判断,比如提升 0.5 个百分点才值得上线,或者提升 2% 相对值才覆盖改造成本。显著性水平 alpha 通常取 0.05,统计功效 power 常取 80% 或 90%,表示真实存在 MDE 时实验能检出的概率。连续指标需要均值和方差,比例指标需要基准率,重尾指标还要考虑 winsorize、变换或 bootstrap 估计。 常见近似公式可以这样解释:两组等比例分流、比较均值时,每组样本量约等于 2 × (Z_alpha/2 + Z_power)^2 × 方差 / MDE^2;比较转化率时,用 p(1-p) 近似方差。实际工作还要考虑分流比例不均、聚类随机化、用户重复访问、季节性、流量可用量、多重检验、实验周期和提前偷看。最后输出的不是一个孤立数字,而是样本量、预计实验天数、可检测的最小效果、风险假设和指标口径。
样本量服务于主指标,主指标不同需要的样本量会差很多。用户级转化、订单金额、留存率和商家活跃的方差不同,随机化单位也必须和分析单位保持一致或做修正。
最小可检测效果不是统计人员随便填的数,而是业务认为值得决策的最小提升。MDE 越小,样本量通常按平方级增加,因此要在灵敏度和实验成本之间取舍。
连续指标要看历史均值、标准差和分布形态,比例指标要看基准率。GMV、客单价等重尾指标方差很大,常常需要更大样本或稳健处理,否则实验很难检出效果。
alpha 控制误判上线的风险,power 控制漏掉真实效果的风险。只说 95% 置信度不够,还要说明希望达到 80% 或 90% 的检出能力。
真实实验要考虑流量上限、分流比例、聚类随机化、跨天波动、多重指标、实验互斥和提前停止规则。公式给初始估算,实验设计还要做可执行性校验。
事后看样本容易受观察结果影响,增加选择性报告和误判风险。样本量应在实验前根据主指标、MDE、alpha、power 和方差确定。
可以放宽 MDE、延长实验周期、提高分流比例、选择方差更小的主指标、做 CUPED 等方差缩减,或承认当前流量无法支持该实验结论。
通常按唯一主指标估算样本量,其他作为诊断或护栏指标。若多个指标都要作为决策依据,需要考虑多重检验和更高样本需求。
重尾会让方差变大,少数极端用户或订单影响均值稳定性。可以预先定义 winsorize、log 变换、分层分析或使用更稳健的指标。