60 秒回答模板

类似快手的大规模推荐系统可以拆成离线和在线两条链路。离线侧有日志采集、样本构建、特征处理、模型训练、模型评估和发布;在线侧有请求接入、用户画像和实时特征、多路召回、粗排、精排、重排混排、策略过滤、缓存降级和曝光日志回流。外围还需要 A/B 实验、监控告警、内容安全、冷启动、探索机制和特征一致性治理。

考点 离线训练链路
难度 真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

数据和样本层

推荐系统依赖曝光、点击、停留、点赞、评论、关注、负反馈等行为日志。离线要把日志转成训练样本,处理延迟反馈、负采样、去重、归因和标签窗口。

02

特征和画像层

特征平台维护用户画像、物料特征、上下文特征、实时行为和交叉特征。关键问题是离在线一致性、特征延迟、缺失兜底、版本管理和高并发读取。

03

召回排序层

召回负责从海量视频中快速找到候选,排序负责精细打分。通常会有多路召回、粗排、精排、多目标建模和重排混排,分别平衡覆盖率、效果和延迟。

04

策略和体验层

最终列表还要处理去重、多样性、作者频控、内容安全、广告、冷启动、探索和生态目标。纯模型分数最高不一定等于用户体验和平台生态最好。

05

实验和监控层

大规模推荐必须依赖 A/B 实验、指标看板和告警系统。要监控点击、时长、留存、负反馈、延迟、召回量、特征缺失、模型分数漂移和业务异常。

易错点

  • 不要只列协同过滤或双塔模型,系统模块远不止算法模型。
  • 不要忽略日志和实验,没有反馈闭环就无法持续优化。
  • 不要把模型分数当最终结果,重排和策略会显著改变列表。
  • 不要忽略服务稳定性,高并发推荐必须有缓存、超时和降级。

面试官追问

为什么推荐系统要分多阶段?

全量物料直接精排成本不可接受,多阶段能先快速缩小候选,再用复杂模型提高质量,在效果和延迟之间平衡。

实时特征平台有什么难点?

难点在高并发低延迟读取、训练服务一致性、特征延迟、缺失兜底、版本治理和异常监控。

如何处理新视频冷启动?

用内容特征、UP主历史、相似视频、规则扶持和小流量探索收集反馈,再逐步进入正常排序链路。