真实面经题目 · 原创解析

如何设计 A/B Test 评估文章推荐对大盘阅读量的增量影响?

这题考推荐功能的增量实验设计。回答要从实验目标、随机单位、指标层级、替代效应、分层分析和护栏指标展开,核心是证明文章推荐带来了大盘阅读量净增,而不是把原本会发生的阅读从其他入口搬过来。

出现于:腾讯 · 数据分析

60 秒回答模板

我会把这类 A/B Test 的目标定义成“文章推荐是否带来大盘阅读量的增量”,而不是“推荐模块点击率是否更高”。实验组展示或使用新推荐策略,对照组保持无推荐、旧推荐或低强度推荐,随机单位优先选用户级,至少要保证同一用户在实验周期内稳定落桶,避免同一个用户一会儿看到推荐、一会儿看不到推荐造成污染。 指标要分三层。第一层是大盘增量指标,比如人均阅读篇数、总阅读时长、有效阅读次数、阅读完成率、二跳阅读和次日留存。第二层是推荐模块指标,包括曝光、点击、有效点击、点击后停留、负反馈和重复曝光。第三层是护栏指标,比如当前文章完成率、退出率、投诉、取关、加载性能、内容多样性和低质内容曝光。只有推荐模块点击上升,但大盘人均阅读或总时长没有提升,不能说明推荐有效。 实验设计上要特别处理替代效应和干扰。文章推荐可能只是把用户从搜索、订阅列表、会话分享或原本要读的下一篇文章迁移过来,所以要看用户级总阅读,而不是模块归因阅读。还要按新老用户、活跃度、入口来源、文章长度、内容品类和作者类型分层,判断提升来自哪里。样本量上要提前定义主指标、MDE、显著性水平和实验周期,结束后做 SRM、埋点完整性、曝光点击匹配和实验桶稳定性检查。 最后给结论时,我会用主指标是否显著提升、置信区间是否达到业务最小收益、护栏是否恶化、不同分层是否一致、长期留存是否被透支来决定是否上线。如果大盘不涨但模块指标好,要优先排查替代效应、推荐内容质量、用户疲劳、点击后停留短和实验口径问题。

考点 先定主指标
难度 真实面经题
回答目标 让面试官看到你能用实验设计证明推荐功能的真实增量,而不是只会罗列推荐指标。

深入解析

01

目标是增量阅读

推荐模块 CTR 只是局部信号,真正要证明的是用户级阅读篇数、阅读时长或有效阅读是否增加。回答要把模块表现和平台大盘拆开,避免把局部点击当成整体收益。

02

随机单位要防污染

优先使用用户级稳定落桶,确保同一用户在实验周期内看到一致策略。曝光级随机容易让用户跨组,也会让一次推荐影响后续阅读路径,导致估计偏差。

03

指标分主指标和护栏

主指标看人均阅读、有效阅读、总阅读时长和留存;模块指标看曝光点击;护栏看退出、投诉、当前文章完成率、负反馈和性能。主指标不升时不能只用 CTR 证明成功。

04

替代效应是关键风险

用户点击推荐文章,可能只是替代了搜索、订阅列表或其他推荐入口的阅读。要看用户级总消费和入口结构迁移,才能判断是否存在净增量。

05

分层解释实验结果

按用户活跃度、内容品类、文章长度、入口来源、作者类型和阅读完成度分层,能判断推荐在什么场景有效,以及是否只提升了少数高活跃用户的短期行为。

易错点

  • 把推荐模块 CTR、转化率或归因阅读直接等同于大盘阅读增量。
  • 没有说明随机单位和稳定落桶,导致实验可能跨组污染。
  • 只做上线前后对比,不控制内容热点、流量结构和时间周期。
  • 忽略替代效应,没有检查其他入口阅读是否被迁移。
  • 没有护栏指标,可能牺牲当前文章完成率、用户信任和内容生态。

面试官追问

为什么不直接看推荐模块点击率?

点击率只能说明模块吸引点击,不能说明用户总阅读变多。用户可能原本会从订阅列表、搜索或其他入口继续阅读,只是被新模块改了入口路径。

实验随机单位应该选用户、会话还是曝光?

评估大盘阅读增量时更适合用户级稳定落桶;会话级适合读后链路较短的策略;曝光级更适合样式微调,但容易产生跨组污染和学习效应。

如果实验组阅读时长提升但投诉也上升,怎么判断?

要看投诉的量级、原因和长期影响。如果提升来自标题党、低质内容或打扰式推荐,即使短期阅读上涨也不应直接全量,应该调整召回、排序或频控。

样本量不足时怎么办?

先确认 MDE 和统计功效,再考虑延长实验、扩大流量、减少实验组、使用更敏感的主指标或用 CUPED 降低方差。不能因为样本少就改看容易显著的局部指标。