如果让你设计一个推荐系统，会设计什么样的架构？｜蚂蚁集团算法面经解析

60 秒回答模板

我会设计离线和在线两条链路。离线侧采集曝光、点击、停留、转化和负反馈日志，构建样本和特征，训练召回、粗排、精排和重排模型；在线侧请求进入后读取用户画像、上下文和实时行为，多路召回候选，粗排缩小规模，精排做多目标预测，重排处理多样性、去重、频控、探索和业务规则。外围需要特征平台、模型发布、A/B 实验、监控告警、冷启动和日志回流。

考点 分层架构

难度 真实面经题

回答目标 讲清方法、取舍和追问

深入解析

离线数据链路

日志采集、样本构建、特征处理、模型训练、离线评估和模型发布构成推荐系统的训练基础。

在线推荐链路

请求接入后依次经过特征读取、多路召回、粗排、精排、重排混排和策略过滤，每一层都受延迟预算约束。

反馈和治理

曝光点击日志回流训练，A/B 实验验证收益，监控关注延迟、召回量、特征缺失、指标波动和内容安全。

冷启动和探索

新用户、新物料和长尾内容不能只依赖历史行为。架构里要预留热门兜底、内容理解、相似召回、小流量探索和冷启动扶持策略，否则系统会不断强化头部内容。

说明容量取舍

架构设计还要落到容量和成本。召回通道数量、候选规模、精排模型复杂度、特征读取延迟和缓存命中率共同决定线上可用性，不能只追求模型效果而忽略服务稳定性。

明确数据回流

推荐系统最终靠反馈闭环迭代。曝光、点击、停留、转化、负反馈和投诉都要以统一埋点回流到样本构建链路，并区分曝光偏差、位置偏差和策略干预造成的数据偏差，避免训练数据把旧策略的错误继续放大。

易错点

不要只讲算法模型，架构题还要覆盖数据、服务和实验。
不要忽略重排和策略，最高分列表不一定体验最好。
不要忘记日志回流，没有反馈闭环就无法持续优化。

面试官追问

冷启动怎么处理？

用户冷启动可用地域、设备、热门和探索策略；物料冷启动可用内容特征、作者先验、相似物料和小流量探索。

召回和精排如何分工？

召回从海量物料中快速保覆盖，精排在较小候选集上用复杂模型精细排序。

线上效果变差先查什么？

查流量分桶、模型版本、特征缺失、召回量、延迟、过滤规则和关键指标切片。