60 秒回答模板

召回层的目标是快速缩小候选集合。常见方法包括热门和规则召回,ItemCF/UserCF 等协同过滤召回,基于标签、类目和内容相似的召回,双塔或 DSSM 这类向量召回,图召回和社交关系召回,以及实时行为召回。工程上通常多路召回并行,再做去重、截断、配额和召回评估,避免单一路径造成覆盖不足。

考点 多路召回
难度 真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

规则和热门兜底

热门、同城、类目、运营规则和安全白名单召回实现简单、稳定可控,适合兜底、冷启动和业务强约束,但个性化能力有限。它们通常不负责最终效果上限,而是保证候选池不为空、风险可控。

02

协同过滤利用行为

ItemCF 根据用户共同交互找相似物料,UserCF 根据相似用户找候选。它们依赖行为数据,解释性较好,但冷启动和稀疏场景会变弱。

03

内容和向量召回

内容召回使用标签、类目、文本、图像或音频特征;双塔向量召回把用户和物料映射到同一空间,用 ANN 检索快速取相似候选。

04

图召回和实时召回

图召回可以沿用户、物料、作者、类目、社交边扩展候选;实时召回根据最近点击、搜索、加购等行为快速响应短期兴趣。

05

多路融合要评估

多路召回需要控制每路配额、去重和打散,并用召回率、命中率、覆盖率、长尾占比、延迟和下游排序贡献评估。某一路候选多不代表有价值,关键要看去重后是否被排序真正使用。

易错点

  • 不要把召回算法只理解成协同过滤。
  • 不要忽略多路召回后的去重、配额和截断策略。
  • 不要只看召回数量,低质量候选会增加排序压力。

面试官追问

召回和排序如何分工?

召回负责快速取候选和保覆盖,排序在较小候选集上做更复杂的精细打分。

双塔召回有什么优缺点?

优点是可离线建物料向量并快速检索,缺点是用户物料交互建模不如精排复杂,需要负采样和 ANN 工程支持。

如何判断某路召回是否有价值?

看独立命中、去重后贡献、下游排序入选率、线上指标提升和成本延迟。