如何设计 A/B Test 评估文章推荐对大盘阅读量的增量影响？｜腾讯数据分析面经解析

60 秒回答模板

我会把这类 A/B Test 的目标定义成“文章推荐是否带来大盘阅读量的增量”，而不是“推荐模块点击率是否更高”。实验组展示或使用新推荐策略，对照组保持无推荐、旧推荐或低强度推荐，随机单位优先选用户级，至少要保证同一用户在实验周期内稳定落桶，避免同一个用户一会儿看到推荐、一会儿看不到推荐造成污染。指标要分三层。第一层是大盘增量指标，比如人均阅读篇数、总阅读时长、有效阅读次数、阅读完成率、二跳阅读和次日留存。第二层是推荐模块指标，包括曝光、点击、有效点击、点击后停留、负反馈和重复曝光。第三层是护栏指标，比如当前文章完成率、退出率、投诉、取关、加载性能、内容多样性和低质内容曝光。只有推荐模块点击上升，但大盘人均阅读或总时长没有提升，不能说明推荐有效。实验设计上要特别处理替代效应和干扰。文章推荐可能只是把用户从搜索、订阅列表、会话分享或原本要读的下一篇文章迁移过来，所以要看用户级总阅读，而不是模块归因阅读。还要按新老用户、活跃度、入口来源、文章长度、内容品类和作者类型分层，判断提升来自哪里。样本量上要提前定义主指标、MDE、显著性水平和实验周期，结束后做 SRM、埋点完整性、曝光点击匹配和实验桶稳定性检查。最后给结论时，我会用主指标是否显著提升、置信区间是否达到业务最小收益、护栏是否恶化、不同分层是否一致、长期留存是否被透支来决定是否上线。如果大盘不涨但模块指标好，要优先排查替代效应、推荐内容质量、用户疲劳、点击后停留短和实验口径问题。

考点 先定主指标

难度 真实面经题

回答目标 让面试官看到你能用实验设计证明推荐功能的真实增量，而不是只会罗列推荐指标。

深入解析

目标是增量阅读

推荐模块 CTR 只是局部信号，真正要证明的是用户级阅读篇数、阅读时长或有效阅读是否增加。回答要把模块表现和平台大盘拆开，避免把局部点击当成整体收益。

随机单位要防污染

优先使用用户级稳定落桶，确保同一用户在实验周期内看到一致策略。曝光级随机容易让用户跨组，也会让一次推荐影响后续阅读路径，导致估计偏差。

指标分主指标和护栏

主指标看人均阅读、有效阅读、总阅读时长和留存；模块指标看曝光点击；护栏看退出、投诉、当前文章完成率、负反馈和性能。主指标不升时不能只用 CTR 证明成功。

替代效应是关键风险

用户点击推荐文章，可能只是替代了搜索、订阅列表或其他推荐入口的阅读。要看用户级总消费和入口结构迁移，才能判断是否存在净增量。

分层解释实验结果

按用户活跃度、内容品类、文章长度、入口来源、作者类型和阅读完成度分层，能判断推荐在什么场景有效，以及是否只提升了少数高活跃用户的短期行为。

易错点

把推荐模块 CTR、转化率或归因阅读直接等同于大盘阅读增量。
没有说明随机单位和稳定落桶，导致实验可能跨组污染。
只做上线前后对比，不控制内容热点、流量结构和时间周期。
忽略替代效应，没有检查其他入口阅读是否被迁移。
没有护栏指标，可能牺牲当前文章完成率、用户信任和内容生态。

面试官追问

为什么不直接看推荐模块点击率？

点击率只能说明模块吸引点击，不能说明用户总阅读变多。用户可能原本会从订阅列表、搜索或其他入口继续阅读，只是被新模块改了入口路径。

实验随机单位应该选用户、会话还是曝光？

评估大盘阅读增量时更适合用户级稳定落桶；会话级适合读后链路较短的策略；曝光级更适合样式微调，但容易产生跨组污染和学习效应。

如果实验组阅读时长提升但投诉也上升，怎么判断？

要看投诉的量级、原因和长期影响。如果提升来自标题党、低质内容或打扰式推荐，即使短期阅读上涨也不应直接全量，应该调整召回、排序或频控。

样本量不足时怎么办？

先确认 MDE 和统计功效，再考虑延长实验、扩大流量、减少实验组、使用更敏感的主指标或用 CUPED 降低方差。不能因为样本少就改看容易显著的局部指标。