真实面经题目 · 原创解析
如果资源无限,去掉召回直接全量排序会怎样?
这题不是简单问算力,而是考推荐系统为什么分召回、粗排、精排:全量排序可能提升候选覆盖,但会改变样本分布、模型目标和系统约束。
真实面经题目 · 原创解析
这题不是简单问算力,而是考推荐系统为什么分召回、粗排、精排:全量排序可能提升候选覆盖,但会改变样本分布、模型目标和系统约束。
如果真的资源无限,全量排序能减少召回漏掉好物品的问题,理论上候选覆盖更高,上限可能提高。但效果不一定单调变好,因为精排模型通常是在召回后的候选分布上训练的,直接面对全库会遇到极端类别不平衡、海量低质负样本、热门偏置、校准变化和多目标约束变复杂。召回阶段不仅是省算力,也承担候选生成、兴趣多样性、业务规则过滤、探索和长尾覆盖。更合理的回答是:全量排序可以作为理想上限或离线 oracle 对比,但线上仍需要分层架构来控制延迟、分布、可解释性和多目标治理。
召回会带来候选截断,可能漏掉精排本来能判断为高价值的物品。如果资源无限,全量排序减少了召回漏召,理论上提高了排序模型可选择的上限。
精排模型通常学习的是召回候选上的点击或转化概率。去掉召回后,负样本数量和质量分布大幅变化,模型分数校准、阈值和特征覆盖都可能失效。
召回负责从不同通道覆盖协同过滤、内容相似、热门、新品、地理或实时兴趣等候选。它也承担规则过滤、去重、多样性和探索,直接全量排序未必自然保留这些机制。
全量候选中绝大多数物品与用户无关,正负比例极端不平衡。模型可能把大量明显负例学得很好,却对真正相近候选的细粒度排序收益有限。
可以用全量排序或更大候选池做离线上限实验,比较召回漏损和精排收益。但线上架构仍要综合延迟、稳定性、特征计算、规则治理、探索效率和业务指标。
可以扩大候选池、引入 oracle 召回或离线全量评估,比较好样本是否在召回阶段被漏掉。
候选分布和训练分布不同,负样本极度变多,模型可能校准失效或把能力浪费在区分明显无关物品上。
看通道召回率、命中率、后链路贡献、去重后覆盖、多样性、长尾覆盖和线上增量效果。
不一定。粗排也有分布整形、多目标初筛、特征成本分层和稳定性治理作用,不只是算力妥协。