真实面经题目 · 原创解析
推荐系统如何解决马太效应?
推荐系统的马太效应是热门内容获得更多曝光后继续变热,长尾内容越来越难被发现,需要从召回、排序、重排、探索和评估偏差一起治理。
出现于:百度 · 算法
真实面经题目 · 原创解析
推荐系统的马太效应是热门内容获得更多曝光后继续变热,长尾内容越来越难被发现,需要从召回、排序、重排、探索和评估偏差一起治理。
我会先解释马太效应来自曝光反馈闭环:热门物料曝光更多,行为数据更多,模型更容易继续推荐它们。解决上可以做长尾召回、冷启动扶持、探索流量、多样性重排、曝光频控、去偏训练和分层评估。排序时不能只优化短期点击,还要看覆盖率、长尾消费、用户新颖性、长期留存和负反馈。核心是给长尾内容获得有效曝光的机会,同时控制整体体验风险。
推荐模型往往依赖曝光后的点击、停留和转化数据。热门内容天然获得更多曝光和反馈,训练数据更充分,模型又会继续给它们更多机会,形成从曝光到反馈再到更多曝光的自我强化闭环。
可以增加内容召回、相似长尾召回、冷启动召回、作者或类目扶持召回,避免候选集一开始就被热门内容占满。
训练时要考虑曝光偏差和位置偏差,排序目标也不能只看短期点击。可以加入新颖性、多样性、长尾覆盖和长期满意度约束。
重排可以做热门频控、同质内容打散、类目覆盖、探索配额和冷启动曝光,同时保证相关性下限,避免强行推低质量内容。
看整体指标之外,还要看头部、中腰部、长尾分层的曝光、点击、转化和留存。只看全局点击可能掩盖长尾生态恶化,也可能让少数头部内容的收益覆盖大量内容供给侧问题。
会有风险,所以要控制比例、设置质量门槛,并按用户、场景和内容分层实验。
看长尾曝光占比、长尾消费、内容覆盖率、作者覆盖、新颖性和长期用户指标。
热门内容短期点击强,模型会持续强化已曝光内容,降低新内容和长尾内容被学习的机会。