真实面经题目 · 原创解析

在 A/B Test 的假设检验中,一类错误和二类错误分别是什么?

这题考 A/B Test 假设检验的基本错误类型。回答重点不是背定义,而是能把一类错误、二类错误、显著性水平、检验功效、样本量和业务决策风险联系起来。

出现于:美团 · 商业分析

60 秒回答模板

在 A/B Test 的假设检验中,一类错误和二类错误分别对应两种不同的误判。一类错误也叫 false positive,含义是原假设本来是真的,但我们错误地拒绝了原假设。例如新策略实际没有提升转化率,但实验结果因为随机波动显示显著提升,于是团队误以为新策略有效并上线。它的概率通常记为 alpha,也就是显著性水平,常见取值是 0.05。 二类错误也叫 false negative,含义是备择假设本来是真的,但我们没有拒绝原假设。例如新策略实际能提升转化率,但样本量不足、波动太大或实验时间太短,导致结果不显著,团队误以为策略无效而放弃。它的概率记为 beta,1-beta 是检验功效 power,表示当真实存在效果时实验发现它的能力。 业务上,一类错误的代价是把无效甚至有害方案上线,带来资源浪费、体验伤害或收入损失;二类错误的代价是错过真实有效的增长机会。设计实验时不能只说 p 值小于 0.05,还要结合最小可检测效应 MDE、样本量、实验周期、指标波动、业务风险和上线成本来权衡。如果错误上线的风险很高,可以降低 alpha、提高审核门槛;如果机会成本很高,则要保证足够样本量和 power,减少二类错误。

考点 一类错误
难度 真实面经题
回答目标 让候选人能用统计定义解释 A/B Test 的两类误判,并能结合业务风险说明实验设计中的取舍。

深入解析

01

先定义原假设

A/B Test 通常把“新方案没有效果”设为原假设,把“新方案有提升或有差异”设为备择假设。两类错误都围绕是否错误拒绝原假设来定义,所以回答时要先说清判断基准和检验方向。

02

一类错误是假阳性

一类错误是实际没有效果却判断为有效,常由随机波动、多指标挑选、提前停止实验或重复检验造成。它会让团队错误上线无效方案,严重时会带来体验损害和资源浪费。

03

二类错误是假阴性

二类错误是实际有效却没有检出,常见原因是样本量不足、实验周期太短、指标噪声大、MDE 设置不合理或分流不均。它的业务后果是错过有效策略或过早否定产品假设。

04

alpha 和 power 要一起看

alpha 控制一类错误概率,power 控制发现真实效果的能力。只追求低 alpha 可能让实验更保守,增加漏掉有效策略的风险;只追求高 power 又需要更多样本和更长周期。

05

业务代价决定取舍

高风险改动更怕一类错误,增长探索更怕二类错误。实验设计应根据错误成本决定显著性水平、样本量、周期和上线策略,而不是机械使用同一套默认阈值。

易错点

  • 把一类错误说成实验组失败,二类错误说成对照组失败。
  • 认为 p 值小于 0.05 就代表新方案有 95% 概率有效。
  • 只背 false positive 和 false negative,不解释业务代价。
  • 忽略样本量、MDE、实验周期和指标波动对二类错误的影响。
  • 把 alpha、beta、power 混在一起,不能说明它们的取舍关系。

面试官追问

p 值小于 0.05 是否说明新方案一定有效?

不能。它只是在原假设成立时观察到当前或更极端结果的概率较低,仍可能发生一类错误。

如何降低二类错误?

可以增加样本量、延长实验周期、降低指标噪声、合理设置 MDE,并保证实验分流和埋点质量。

为什么不能无限降低 alpha?

alpha 越低,拒绝原假设越难,可能导致真实有效方案也难以显著,从而增加二类错误和机会损失。

业务中更应该关注哪类错误?

取决于场景。支付、风控、履约体验更怕误上线;增长探索和推荐优化也要关注漏掉有效策略。