真实面经题目 · 原创解析
A/B 实验如何设计和评估?
A/B 实验的核心是用随机分流把策略变化与其他干扰因素隔离开,再用预先定义的指标体系和统计检验判断新方案是否真的带来增益。完整回答应覆盖实验目标、假设、实验单元、分流机制、指标设计、样本量与周期、过程监控、显著性检验、分层分析、风险控制和最终决策。
真实面经题目 · 原创解析
A/B 实验的核心是用随机分流把策略变化与其他干扰因素隔离开,再用预先定义的指标体系和统计检验判断新方案是否真的带来增益。完整回答应覆盖实验目标、假设、实验单元、分流机制、指标设计、样本量与周期、过程监控、显著性检验、分层分析、风险控制和最终决策。
我会按目标假设、实验设计、过程监控、效果评估、上线决策五步回答。首先明确要验证的业务问题,例如提升转化率、留存、客单价或人均收入,并转成可检验假设。其次设计实验对象、随机分流、实验组和对照组比例、样本量、周期、核心指标、辅助指标和护栏指标,确保两组除被测策略外其他条件一致。然后在实验运行中监控流量分配、埋点质量、样本均衡、异常波动和护栏指标,避免数据问题误判。评估时看指标差异、置信区间、p 值或贝叶斯后验概率,并结合人群、渠道、设备、地域、新老用户等分层判断稳定性。最后做业务决策:核心指标显著提升且护栏稳定就灰度放量;不显著要判断样本量、周期和指标链路;核心指标提升但护栏恶化则优化后重做或限制上线。
A/B 实验不是把两个版本放出去看哪个高,第一步必须把业务目标转化为可检验假设。比如目标是提升交易规模,不能只看 GMV,而要拆成支付转化率、客单价、复购率、退款率等指标。好的假设应包含对象、动作、预期方向和最小可接受效果,例如对近 7 日活跃但未下单用户展示个性化权益,期望首单支付转化率提升至少 0.5 个百分点且不提高退款率。
实验单元决定随机化粒度,常见有用户、设备、会话、订单、门店、城市等。多数互联网产品优先按用户维度分流,因为同一用户在实验周期内应保持稳定体验。分流要随机、互斥、稳定和可追溯。若实验涉及社交传播、供需匹配、库存、价格或排队机制,还要警惕外溢效应,因为一个用户的策略可能影响另一个用户的结果。
指标体系通常分为核心指标、辅助指标和护栏指标。核心指标直接对应实验目标,例如点击率、转化率、留存率、ARPU、GMV、支付成功率。辅助指标解释核心指标为什么变化,例如曝光、点击、加购、下单、支付漏斗各环节。护栏指标防止局部优化伤害整体体验,例如加载耗时、投诉率、退款率、履约时效、次日留存、卸载率和服务压力。
样本量不能凭感觉决定,它受基准转化率、最小可检测效果、显著性水平、检验功效和分流比例影响。样本量太小会把真实有效策略误判为无效;周期太短可能只捕捉新鲜感或短期波动;周期太长又增加机会成本和外部干扰。实验周期要覆盖工作日和周末、促销、节假日、渠道投放等业务周期。
实验前可以做 AA 测试或历史回放,确认分流系统、埋点、指标计算和统计平台没有系统偏差。运行中要监控样本比例是否符合预期,检查实验组和对照组在新老用户、渠道、城市、设备、会员等级等基础属性上是否均衡,同时关注数据延迟、埋点丢失、版本发布、缓存和接口错误。过程监控重点是识别实验是否失真。
常见评估方法包括均值差异检验、比例检验、t 检验、卡方检验、非参数检验、置信区间和贝叶斯方法。方法要匹配指标类型:转化率适合比例类检验;人均收入、客单价、停留时长可能分布偏态,需要截尾、bootstrap 或稳健估计。评估不能只看 p 值,还要看效果大小、置信区间和业务收益。
总体结果显著不代表所有人群都受益。分层分析可以按新老用户、活跃度、消费层级、地域、渠道、设备、会员等级、价格敏感度等维度观察差异。比如整体转化率提升 1%,但新用户提升 3%、老用户下降 0.5%,就可能适合定向上线而不是全量上线。分层最好在实验前预设,事后探索性发现需要新实验验证。
实验结论应服务决策。核心指标显著提升且护栏稳定,适合逐步放量;核心指标不显著但方向一致,要判断样本量和业务收益,必要时延长或扩大样本;核心指标提升但护栏恶化,需要计算长期损失并优化策略;核心指标下降则回滚或复盘假设。影响收入、履约、价格、风控、推荐排序的策略通常要灰度放量并保留回滚机制。
不一定。不显著可能是方案无效,也可能是样本量不足、周期不够、指标波动太大、最小可检测效果设置过小,或者实验人群没有覆盖真正受影响用户。应先看效果方向、置信区间、统计功效和数据质量,再决定延长实验、扩大样本、优化方案或停止。
护栏指标用于防止核心指标上涨但整体业务受损。例如提高弹窗频率可能提升短期转化率,但增加投诉并降低留存;提高补贴可能提升订单量但损害毛利。护栏指标帮助判断策略是否只是转移成本或透支长期价值。
SRM 指样本比例不匹配,即实验组和对照组实际流量比例明显偏离预期,例如计划 50% 对 50%,结果变成 60% 对 40%。它通常意味着分流、埋点、日志上报、过滤规则或实验配置有问题,严重时应废弃实验并重做。
可以,但需要有预设规则。反复查看数据并在显著时停止会提高假阳性概率。更稳妥的做法是在实验前定义最短运行周期、样本量要求、停止标准和异常回滚条件。若支付失败、投诉暴涨、系统错误率上升,则应立即止损。
先判断实验之间是否互相影响。若两个实验作用于同一页面、用户路径或指标,最好做互斥分层、正交实验或多因子设计。若影响独立,可以并行,但仍要记录用户进入的实验组合并评估交互效应,避免一个实验污染另一个实验。
转化率只能说明最终结果变了,漏斗能解释哪里变了。曝光到点击提升但点击到支付下降,可能是吸引来的用户质量下降;加购提升但支付不变,可能是价格、库存或支付链路问题。漏斗分析能帮助判断方案应上线、优化还是重做。