真实面经题目 · 原创解析
常用的召回算法有哪些?
常用召回算法可以按规则、协同过滤、内容向量、模型向量、图关系和实时行为分组,核心目标是在可控延迟内从海量物料中取到足够好的候选。
出现于:蚂蚁集团 · 算法
真实面经题目 · 原创解析
常用召回算法可以按规则、协同过滤、内容向量、模型向量、图关系和实时行为分组,核心目标是在可控延迟内从海量物料中取到足够好的候选。
召回层的目标是快速缩小候选集合。常见方法包括热门和规则召回,ItemCF/UserCF 等协同过滤召回,基于标签、类目和内容相似的召回,双塔或 DSSM 这类向量召回,图召回和社交关系召回,以及实时行为召回。工程上通常多路召回并行,再做去重、截断、配额和召回评估,避免单一路径造成覆盖不足。
热门、同城、类目、运营规则和安全白名单召回实现简单、稳定可控,适合兜底、冷启动和业务强约束,但个性化能力有限。它们通常不负责最终效果上限,而是保证候选池不为空、风险可控。
ItemCF 根据用户共同交互找相似物料,UserCF 根据相似用户找候选。它们依赖行为数据,解释性较好,但冷启动和稀疏场景会变弱。
内容召回使用标签、类目、文本、图像或音频特征;双塔向量召回把用户和物料映射到同一空间,用 ANN 检索快速取相似候选。
图召回可以沿用户、物料、作者、类目、社交边扩展候选;实时召回根据最近点击、搜索、加购等行为快速响应短期兴趣。
多路召回需要控制每路配额、去重和打散,并用召回率、命中率、覆盖率、长尾占比、延迟和下游排序贡献评估。某一路候选多不代表有价值,关键要看去重后是否被排序真正使用。
召回负责快速取候选和保覆盖,排序在较小候选集上做更复杂的精细打分。
优点是可离线建物料向量并快速检索,缺点是用户物料交互建模不如精排复杂,需要负采样和 ANN 工程支持。
看独立命中、去重后贡献、下游排序入选率、线上指标提升和成本延迟。