A/B Test 中为什么常用 t 检验，它的适用前提和局限是什么？｜腾讯数据分析面经解析

60 秒回答模板

A/B Test 中常用 t 检验，是因为很多实验主指标可以表达为两组样本均值的差异，比如人均阅读时长、人均消费金额、人均点击次数或每用户转化价值。我们通常不知道总体方差，只能用样本方差估计不确定性，t 检验正是用来判断“观察到的均值差异，相对于组内波动是否足够大”，从而评估差异是否可能只是随机噪声。它成立需要几个前提。第一，实验单位要独立，用户不能严重串组，同一个用户的多次行为不能被错误当成独立样本。第二，随机分流要可靠，两组除策略外尽量可比。第三，指标的样本均值要近似正态，大样本下可以依靠中心极限定理；小样本或重尾分布要更谨慎。第四，方差处理要合适，两组方差相近可以用普通两样本 t 检验，方差不齐更适合 Welch t 检验。第五，要先定义显著性水平、检验方向、主指标和样本量，避免实验后挑指标。但 t 检验不是所有 A/B 指标的默认答案。比例类指标如点击率、转化率常用 z 检验、卡方检验或精确检验；分布重尾的收入类指标可以考虑 bootstrap、置换检验、winsorize 或 delta method；序贯实验要用序贯检验或 Bayesian 方法；多指标多分群要控制多重比较。最后还要强调，统计显著不等于值得上线，结论必须结合效应量、置信区间、MDE、护栏指标和业务收益。

考点 均值差问题

难度 真实面经题

回答目标 让面试官看到你不仅知道 t 检验名字，还能讲清它为什么适用、什么时候不适用，以及如何把统计结论转成业务判断。

深入解析

t 检验回答均值差异

它适合比较两组样本均值是否存在显著差异，核心是把均值差除以标准误，判断差异相对随机波动是否足够大。面试时要把它和人均时长、人均金额、人均点击等用户级均值指标联系起来。

方差未知是现实前提

线上实验通常不知道总体方差，只能用样本方差估计，因此统计量服从 t 分布而不是简单使用标准正态，尤其小样本时更明显。样本越大，t 分布越接近正态，但标准误估计仍然是结论可信度的关键。

独立和随机是根基

如果用户串组、样本比例异常、重复行为被当成独立样本或分流不随机，t 检验算出来的 p 值也不可靠。因此要先做 SRM、落桶稳定性、埋点一致性和用户级聚合检查。

指标类型决定检验方法

均值类指标适合 t 检验；比例类指标常用 z 检验或卡方；重尾收入、留存和非正态指标要考虑 bootstrap、非参数方法或变换。

显著性不是业务决策

p 值只能说明随机噪声解释差异的可能性，不代表效果大小，也不代表一定值得上线。还要看置信区间、MDE、上线成本、长期风险和护栏指标，避免统计显著但业务收益很小。

易错点

只说 t 检验用于判断显著性，不解释它比较的是均值差和标准误。
忽略随机分流、样本独立和用户级聚合，把行为日志条数直接当样本。
不区分均值指标、比例指标和重尾指标，所有 A/B 都套 t 检验。
默认两组方差相等，不知道方差不齐时应考虑 Welch t 检验。
把 p 值显著等同于业务值得上线，没有看效应量、MDE 和护栏。

面试官追问

点击率这类比例指标可以用 t 检验吗？

可以把用户级点击率作为均值近似处理，但更常见的是用比例 z 检验、卡方检验或基于用户级聚合的稳健方法。关键是实验单位和方差估计要对。

为什么大样本时还经常用 t 检验？

大样本下 t 分布接近正态，t 检验和 z 检验差别会变小；但用样本方差估计标准误仍然自然，工程实现也成熟。

收入指标很重尾时怎么办？

重尾会让均值和方差不稳定，可以先用户级聚合，再考虑 winsorize、bootstrap、置换检验、分层分析或使用更稳健的指标，并报告置信区间。

p 值显著就一定上线吗？

不一定。还要看提升是否达到 MDE、置信区间是否有业务意义、护栏是否恶化、实验是否有污染，以及上线成本和长期风险是否可接受。