真实面经题目 · 原创解析

A/B Test 中为什么常用 t 检验,它的适用前提和局限是什么?

这题考 A/B Test 的统计基础。t 检验常用于比较两组均值差异,因为它在方差未知、样本均值近似正态时能给出差异显著性判断;但前提、指标类型、样本独立性、方差差异和业务效应都必须一起说明。

出现于:腾讯 · 数据分析

60 秒回答模板

A/B Test 中常用 t 检验,是因为很多实验主指标可以表达为两组样本均值的差异,比如人均阅读时长、人均消费金额、人均点击次数或每用户转化价值。我们通常不知道总体方差,只能用样本方差估计不确定性,t 检验正是用来判断“观察到的均值差异,相对于组内波动是否足够大”,从而评估差异是否可能只是随机噪声。 它成立需要几个前提。第一,实验单位要独立,用户不能严重串组,同一个用户的多次行为不能被错误当成独立样本。第二,随机分流要可靠,两组除策略外尽量可比。第三,指标的样本均值要近似正态,大样本下可以依靠中心极限定理;小样本或重尾分布要更谨慎。第四,方差处理要合适,两组方差相近可以用普通两样本 t 检验,方差不齐更适合 Welch t 检验。第五,要先定义显著性水平、检验方向、主指标和样本量,避免实验后挑指标。 但 t 检验不是所有 A/B 指标的默认答案。比例类指标如点击率、转化率常用 z 检验、卡方检验或精确检验;分布重尾的收入类指标可以考虑 bootstrap、置换检验、winsorize 或 delta method;序贯实验要用序贯检验或 Bayesian 方法;多指标多分群要控制多重比较。最后还要强调,统计显著不等于值得上线,结论必须结合效应量、置信区间、MDE、护栏指标和业务收益。

考点 均值差问题
难度 真实面经题
回答目标 让面试官看到你不仅知道 t 检验名字,还能讲清它为什么适用、什么时候不适用,以及如何把统计结论转成业务判断。

深入解析

01

t 检验回答均值差异

它适合比较两组样本均值是否存在显著差异,核心是把均值差除以标准误,判断差异相对随机波动是否足够大。面试时要把它和人均时长、人均金额、人均点击等用户级均值指标联系起来。

02

方差未知是现实前提

线上实验通常不知道总体方差,只能用样本方差估计,因此统计量服从 t 分布而不是简单使用标准正态,尤其小样本时更明显。样本越大,t 分布越接近正态,但标准误估计仍然是结论可信度的关键。

03

独立和随机是根基

如果用户串组、样本比例异常、重复行为被当成独立样本或分流不随机,t 检验算出来的 p 值也不可靠。因此要先做 SRM、落桶稳定性、埋点一致性和用户级聚合检查。

04

指标类型决定检验方法

均值类指标适合 t 检验;比例类指标常用 z 检验或卡方;重尾收入、留存和非正态指标要考虑 bootstrap、非参数方法或变换。

05

显著性不是业务决策

p 值只能说明随机噪声解释差异的可能性,不代表效果大小,也不代表一定值得上线。还要看置信区间、MDE、上线成本、长期风险和护栏指标,避免统计显著但业务收益很小。

易错点

  • 只说 t 检验用于判断显著性,不解释它比较的是均值差和标准误。
  • 忽略随机分流、样本独立和用户级聚合,把行为日志条数直接当样本。
  • 不区分均值指标、比例指标和重尾指标,所有 A/B 都套 t 检验。
  • 默认两组方差相等,不知道方差不齐时应考虑 Welch t 检验。
  • 把 p 值显著等同于业务值得上线,没有看效应量、MDE 和护栏。

面试官追问

点击率这类比例指标可以用 t 检验吗?

可以把用户级点击率作为均值近似处理,但更常见的是用比例 z 检验、卡方检验或基于用户级聚合的稳健方法。关键是实验单位和方差估计要对。

为什么大样本时还经常用 t 检验?

大样本下 t 分布接近正态,t 检验和 z 检验差别会变小;但用样本方差估计标准误仍然自然,工程实现也成熟。

收入指标很重尾时怎么办?

重尾会让均值和方差不稳定,可以先用户级聚合,再考虑 winsorize、bootstrap、置换检验、分层分析或使用更稳健的指标,并报告置信区间。

p 值显著就一定上线吗?

不一定。还要看提升是否达到 MDE、置信区间是否有业务意义、护栏是否恶化、实验是否有污染,以及上线成本和长期风险是否可接受。