在 A/B Test 的假设检验中，一类错误和二类错误分别是什么？｜美团商业分析面经解析

60 秒回答模板

在 A/B Test 的假设检验中，一类错误和二类错误分别对应两种不同的误判。一类错误也叫 false positive，含义是原假设本来是真的，但我们错误地拒绝了原假设。例如新策略实际没有提升转化率，但实验结果因为随机波动显示显著提升，于是团队误以为新策略有效并上线。它的概率通常记为 alpha，也就是显著性水平，常见取值是 0.05。二类错误也叫 false negative，含义是备择假设本来是真的，但我们没有拒绝原假设。例如新策略实际能提升转化率，但样本量不足、波动太大或实验时间太短，导致结果不显著，团队误以为策略无效而放弃。它的概率记为 beta，1-beta 是检验功效 power，表示当真实存在效果时实验发现它的能力。业务上，一类错误的代价是把无效甚至有害方案上线，带来资源浪费、体验伤害或收入损失；二类错误的代价是错过真实有效的增长机会。设计实验时不能只说 p 值小于 0.05，还要结合最小可检测效应 MDE、样本量、实验周期、指标波动、业务风险和上线成本来权衡。如果错误上线的风险很高，可以降低 alpha、提高审核门槛；如果机会成本很高，则要保证足够样本量和 power，减少二类错误。

考点 一类错误

难度 真实面经题

回答目标 让候选人能用统计定义解释 A/B Test 的两类误判，并能结合业务风险说明实验设计中的取舍。

深入解析

先定义原假设

A/B Test 通常把“新方案没有效果”设为原假设，把“新方案有提升或有差异”设为备择假设。两类错误都围绕是否错误拒绝原假设来定义，所以回答时要先说清判断基准和检验方向。

一类错误是假阳性

一类错误是实际没有效果却判断为有效，常由随机波动、多指标挑选、提前停止实验或重复检验造成。它会让团队错误上线无效方案，严重时会带来体验损害和资源浪费。

二类错误是假阴性

二类错误是实际有效却没有检出，常见原因是样本量不足、实验周期太短、指标噪声大、MDE 设置不合理或分流不均。它的业务后果是错过有效策略或过早否定产品假设。

alpha 和 power 要一起看

alpha 控制一类错误概率，power 控制发现真实效果的能力。只追求低 alpha 可能让实验更保守，增加漏掉有效策略的风险；只追求高 power 又需要更多样本和更长周期。

业务代价决定取舍

高风险改动更怕一类错误，增长探索更怕二类错误。实验设计应根据错误成本决定显著性水平、样本量、周期和上线策略，而不是机械使用同一套默认阈值。

易错点

把一类错误说成实验组失败，二类错误说成对照组失败。
认为 p 值小于 0.05 就代表新方案有 95% 概率有效。
只背 false positive 和 false negative，不解释业务代价。
忽略样本量、MDE、实验周期和指标波动对二类错误的影响。
把 alpha、beta、power 混在一起，不能说明它们的取舍关系。

面试官追问

p 值小于 0.05 是否说明新方案一定有效？

不能。它只是在原假设成立时观察到当前或更极端结果的概率较低，仍可能发生一类错误。

如何降低二类错误？

可以增加样本量、延长实验周期、降低指标噪声、合理设置 MDE，并保证实验分流和埋点质量。

为什么不能无限降低 alpha？

alpha 越低，拒绝原假设越难，可能导致真实有效方案也难以显著，从而增加二类错误和机会损失。

业务中更应该关注哪类错误？

取决于场景。支付、风控、履约体验更怕误上线；增长探索和推荐优化也要关注漏掉有效策略。