推荐系统里除了位置偏置，还有哪些常见偏置？｜阿里巴巴算法面经解析

60 秒回答模板

推荐系统里除了位置偏置，还常见曝光偏置、选择偏置、流行度偏置、展示偏置、信任或来源偏置、样本选择偏置、反馈回路偏置、时间偏置、用户活跃度偏置和标注偏置。核心理解是：用户行为数据不是自然完整地反映用户偏好，而是推荐系统先决定了用户能看到什么，页面样式影响用户点什么，用户群体决定哪些反馈更密集，历史模型又会不断强化已有分布。位置偏置只是其中最典型的一类，表现为靠前位置天然获得更高点击率，不能直接等同于物品更相关。解决思路上，训练阶段可以引入曝光建模、逆倾向加权、反事实学习、去流行度约束、时间衰减和分层采样；评估阶段要区分观测点击率和真实增量价值，尽量使用随机桶、探索流量、校准后的离线指标和在线实验；上线阶段还要警惕实验之间互相污染、长期反馈回路和新旧用户分布差异。成熟回答不应只罗列名称，而要说明偏置来源、对模型的影响、如何检测以及如何缓解。

考点 总览框架

主线 曝光与选择偏置

易错点 只回答位置偏置、流行度偏置两个名词，没有解释数据生成链…

深入解析

总览框架

推荐系统里的偏置可以按链路拆成三段：第一段是曝光前，系统和场景决定哪些内容有机会被用户看见；第二段是曝光中，位置、样式、来源、上下文影响用户是否产生行为；第三段是训练和评估阶段，日志样本、反馈定义和实验设计影响模型学到什么。这样回答能把零散概念组织成完整框架，也能避免只把偏置理解成排序位次的问题。

曝光与选择偏置

曝光偏置指模型只能从已曝光内容上收集点击、停留、转化等反馈，未曝光内容没有机会证明自己。选择偏置则强调用户主动选择进入某些场景、频道或内容集合，本身就不是随机样本。二者会导致训练数据更像历史策略的产物，而不是全量用户偏好的无偏观测。若直接用这类日志训练模型，模型会更相信过去被推过的内容，弱化新内容和长尾内容。

流行度偏置

流行度偏置是推荐系统中非常常见的偏置：热门物品因为历史互动多，特征更充分，排序更容易靠前，又获得更多曝光和反馈，形成强者更强。它会提升短期点击或转化，但可能牺牲多样性、新颖性和个性化体验。识别时可以看曝光集中度、头部物品占比、长尾覆盖率和用户兴趣覆盖。缓解时通常结合重加权、召回配额、多样性约束和探索机制。

展示与来源偏置

展示偏置不仅包括位置偏置，还包括卡片大小、图片质量、标题长度、价格露出、按钮样式、是否有角标、是否自动播放等因素。信任或来源偏置则指用户会因为来源、品牌、认证、熟人背书或权威符号而更容易点击，而不一定是内容本身更匹配。模型若把这些行为全部解释成相关性，就可能把界面吸引力、来源信任和真实偏好混在一起，导致泛化能力下降。

样本选择偏置

样本选择偏置通常出现在训练集构造环节，例如只用点击样本与随机负样本、只保留活跃用户、只采集某个渠道、只抽取高曝光物品，都会让样本分布偏离线上真实请求分布。它和曝光偏置相关但不完全相同，前者强调数据被如何筛选，后者强调数据为何被观察到。处理时要检查样本覆盖、分层比例、负样本策略和训练评估分布是否一致。

反馈回路偏置

反馈回路偏置指模型的推荐结果会改变用户后续行为，而这些行为又被当成新训练数据继续强化模型。长期看，系统可能逐渐收窄用户兴趣，强化头部内容，或者让用户误以为自己只喜欢某类内容。它是推荐系统中特别需要关注的动态偏置，因为短期指标可能很好，长期满意度、留存和生态健康却变差。缓解需要探索流量、长期指标、内容多样性和定期再校准。

时间偏置

时间偏置来自用户兴趣、内容热度、季节周期、促销活动、新闻事件和平台策略变化。昨天有效的行为模式，今天不一定仍然代表稳定偏好。离线评估如果随机切分训练集和测试集，可能泄漏未来信息，也会高估模型效果。更合理的做法是按时间切分、加入时间特征、使用时间衰减、监控分布漂移，并区分短时兴趣和长期兴趣。

标注与目标偏置

标注偏置在推荐中常体现为把点击当成满意、把停留当成喜欢、把购买当成唯一价值，或者忽略误点、标题党、低质高吸引内容。行为反馈是隐式反馈，不等同于真实偏好，因此目标定义本身会带来偏差。训练时需要结合跳出、负反馈、复访、完播、收藏、转化后行为等多种信号，并在多目标建模中校准不同反馈的可靠性，避免模型学到错误激励。

易错点

只回答位置偏置、流行度偏置两个名词，没有解释数据生成链路和模型为何会学偏。
把点击率直接等同于相关性或满意度，忽略展示样式、误点、好奇心和来源信任的影响。
认为数据量足够大就可以消除偏置，没有区分随机噪声和系统性偏差的本质差异。
只讲训练阶段的去偏方法，却不说明离线评估和在线实验本身也会受到历史策略影响。
把逆倾向加权说成万能方案，忽略倾向估计不准、权重方差过大和探索数据不足的问题。

面试官追问

位置偏置和曝光偏置有什么区别？

位置偏置发生在内容已经被展示之后，关注不同展示位带来的天然点击差异；曝光偏置发生在更前面，关注哪些内容有机会被展示、哪些内容从来没有被观察到。一个物品如果没有曝光，就没有点击反馈，模型无法判断它是否相关；一个物品即使曝光了，也会因为位置不同而得到不同反馈。因此曝光偏置解决可见性问题，位置偏置解决展示位带来的行为扭曲问题。

为什么流行度偏置会影响个性化？

热门内容拥有更多历史行为，模型更容易学习到稳定特征，也更容易在排序中得到高分。结果是热门内容继续获得更多曝光，长尾内容和新内容更难被探索。这样会让不同用户看到越来越相似的结果，短期点击可能不差，但个性化、发现感和内容生态会下降。缓解时需要在相关性之外引入多样性、覆盖率、探索和人群分层指标。

逆倾向加权如何缓解偏置？

逆倾向加权的基本思想是：某条样本被观察到的概率越低，一旦被观察到就应该在训练或评估中获得更高权重；被高概率展示的位置或物品，则不能因为反馈多就被过度相信。例如靠前位置点击概率天然高，训练时可按曝光倾向或点击倾向进行加权，减少模型把位置优势误学成内容相关性的风险。但权重过大会带来方差问题，通常要做裁剪和平滑。

为什么需要随机化实验或探索流量？

历史日志来自旧策略，天然带有旧模型的选择结果，很难直接回答如果换一种排序用户会怎样反馈。随机化实验或探索流量可以让部分内容在更随机、更均衡的条件下获得曝光，从而估计位置倾向、物品真实反馈和策略增量。它不是为了追求随机推荐，而是为了获得校准数据。实践中要控制流量比例，并监控用户体验和关键业务指标。

如何判断训练数据存在样本选择偏置？

可以从分布对比入手，检查训练样本与线上请求在用户活跃度、物品热度、场景渠道、曝光位置、时间段和反馈类型上的差异。如果训练集大量来自高活跃用户或高曝光物品，而线上有大量低频用户和长尾内容，模型就可能在整体指标上表现尚可，但真实服务时对某些人群效果较差。常见处理包括分层采样、重加权、按人群评估和构造更贴近线上分布的验证集。