A/B 实验如何设计和评估？｜阿里巴巴数据分析面经解析

60 秒回答模板

我会按目标假设、实验设计、过程监控、效果评估、上线决策五步回答。首先明确要验证的业务问题，例如提升转化率、留存、客单价或人均收入，并转成可检验假设。其次设计实验对象、随机分流、实验组和对照组比例、样本量、周期、核心指标、辅助指标和护栏指标，确保两组除被测策略外其他条件一致。然后在实验运行中监控流量分配、埋点质量、样本均衡、异常波动和护栏指标，避免数据问题误判。评估时看指标差异、置信区间、p 值或贝叶斯后验概率，并结合人群、渠道、设备、地域、新老用户等分层判断稳定性。最后做业务决策：核心指标显著提升且护栏稳定就灰度放量；不显著要判断样本量、周期和指标链路；核心指标提升但护栏恶化则优化后重做或限制上线。

考点 明确实验目标与假设

主线 确定实验单元与随机分流

易错点 没有先定义实验假设，直接上线两个版本比较指标。

深入解析

明确实验目标与假设

A/B 实验不是把两个版本放出去看哪个高，第一步必须把业务目标转化为可检验假设。比如目标是提升交易规模，不能只看 GMV，而要拆成支付转化率、客单价、复购率、退款率等指标。好的假设应包含对象、动作、预期方向和最小可接受效果，例如对近 7 日活跃但未下单用户展示个性化权益，期望首单支付转化率提升至少 0.5 个百分点且不提高退款率。

确定实验单元与随机分流

实验单元决定随机化粒度，常见有用户、设备、会话、订单、门店、城市等。多数互联网产品优先按用户维度分流，因为同一用户在实验周期内应保持稳定体验。分流要随机、互斥、稳定和可追溯。若实验涉及社交传播、供需匹配、库存、价格或排队机制，还要警惕外溢效应，因为一个用户的策略可能影响另一个用户的结果。

构建指标体系

指标体系通常分为核心指标、辅助指标和护栏指标。核心指标直接对应实验目标，例如点击率、转化率、留存率、ARPU、GMV、支付成功率。辅助指标解释核心指标为什么变化，例如曝光、点击、加购、下单、支付漏斗各环节。护栏指标防止局部优化伤害整体体验，例如加载耗时、投诉率、退款率、履约时效、次日留存、卸载率和服务压力。

样本量与实验周期

样本量不能凭感觉决定，它受基准转化率、最小可检测效果、显著性水平、检验功效和分流比例影响。样本量太小会把真实有效策略误判为无效；周期太短可能只捕捉新鲜感或短期波动；周期太长又增加机会成本和外部干扰。实验周期要覆盖工作日和周末、促销、节假日、渠道投放等业务周期。

实验前校验与过程监控

实验前可以做 AA 测试或历史回放，确认分流系统、埋点、指标计算和统计平台没有系统偏差。运行中要监控样本比例是否符合预期，检查实验组和对照组在新老用户、渠道、城市、设备、会员等级等基础属性上是否均衡，同时关注数据延迟、埋点丢失、版本发布、缓存和接口错误。过程监控重点是识别实验是否失真。

统计评估方法

常见评估方法包括均值差异检验、比例检验、t 检验、卡方检验、非参数检验、置信区间和贝叶斯方法。方法要匹配指标类型：转化率适合比例类检验；人均收入、客单价、停留时长可能分布偏态，需要截尾、bootstrap 或稳健估计。评估不能只看 p 值，还要看效果大小、置信区间和业务收益。

分层分析与异质性

总体结果显著不代表所有人群都受益。分层分析可以按新老用户、活跃度、消费层级、地域、渠道、设备、会员等级、价格敏感度等维度观察差异。比如整体转化率提升 1%，但新用户提升 3%、老用户下降 0.5%，就可能适合定向上线而不是全量上线。分层最好在实验前预设，事后探索性发现需要新实验验证。

业务决策与上线策略

实验结论应服务决策。核心指标显著提升且护栏稳定，适合逐步放量；核心指标不显著但方向一致，要判断样本量和业务收益，必要时延长或扩大样本；核心指标提升但护栏恶化，需要计算长期损失并优化策略；核心指标下降则回滚或复盘假设。影响收入、履约、价格、风控、推荐排序的策略通常要灰度放量并保留回滚机制。

易错点

没有先定义实验假设，直接上线两个版本比较指标。
只看核心指标上涨，忽略退款率、投诉率、留存率、毛利等护栏指标。
样本量不足就下结论，把不显著误解为方案无效。
实验周期过短，没有覆盖周末、节假日或业务自然周期。
实验组和对照组分流不稳定，用户在不同版本之间来回切换。
实验过程中频繁偷看数据，看到显著就提前停止，导致假阳性风险上升。
忽略样本比例不匹配和埋点异常，直接相信统计结果。
做大量事后分层分析，挑出显著人群后直接上线，没有再次验证。

面试官追问

实验结果不显著是否说明方案无效？

不一定。不显著可能是方案无效，也可能是样本量不足、周期不够、指标波动太大、最小可检测效果设置过小，或者实验人群没有覆盖真正受影响用户。应先看效果方向、置信区间、统计功效和数据质量，再决定延长实验、扩大样本、优化方案或停止。

为什么要设置护栏指标？

护栏指标用于防止核心指标上涨但整体业务受损。例如提高弹窗频率可能提升短期转化率，但增加投诉并降低留存；提高补贴可能提升订单量但损害毛利。护栏指标帮助判断策略是否只是转移成本或透支长期价值。

A/B 实验中的 SRM 是什么？

SRM 指样本比例不匹配，即实验组和对照组实际流量比例明显偏离预期，例如计划 50% 对 50%，结果变成 60% 对 40%。它通常意味着分流、埋点、日志上报、过滤规则或实验配置有问题，严重时应废弃实验并重做。

实验期间可以提前停止吗？

可以，但需要有预设规则。反复查看数据并在显著时停止会提高假阳性概率。更稳妥的做法是在实验前定义最短运行周期、样本量要求、停止标准和异常回滚条件。若支付失败、投诉暴涨、系统错误率上升，则应立即止损。

多个实验同时运行怎么处理？

先判断实验之间是否互相影响。若两个实验作用于同一页面、用户路径或指标，最好做互斥分层、正交实验或多因子设计。若影响独立，可以并行，但仍要记录用户进入的实验组合并评估交互效应，避免一个实验污染另一个实验。

为什么不能只看转化率，还要看漏斗？

转化率只能说明最终结果变了，漏斗能解释哪里变了。曝光到点击提升但点击到支付下降，可能是吸引来的用户质量下降；加购提升但支付不变，可能是价格、库存或支付链路问题。漏斗分析能帮助判断方案应上线、优化还是重做。