真实面经题目 · 原创解析

深度点击率预估模型如何选型?

深度点击率预估模型选型要看特征规模、样本量、实时性、可解释性和业务阶段。回答时可以从 LR/GBDT 到 Wide&Deep、DeepFM、DIN、DCN、MMoE 等模型演进讲起,再说明如何用离线指标和线上 A/B 验证。

出现于:百度 · 算法

60 秒回答模板

CTR 模型选型先看问题:特征是否稀疏高维,是否有强交叉特征,用户行为序列是否重要,是否多目标,线上延迟预算多少。简单基线可以从 LR、GBDT、FM 开始;大规模稀疏特征和非线性交叉可考虑 Wide&Deep、DeepFM、DCN;有用户历史兴趣序列可考虑 DIN/DIEN;多任务场景可考虑 MMoE、PLE。最终用 AUC、LogLoss、校准、分桶和线上 A/B 判断。

考点 基线先行
难度 算法岗真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

先建基线

CTR 预估不要一开始就堆复杂模型。LR、GBDT、FM 或简单 DNN 可以作为基线,帮助判断特征质量和问题难度。基线稳定后再引入深度模型,否则复杂模型可能掩盖数据、标签或特征管线问题。

02

看特征形态

CTR 场景通常有大量稀疏类别特征、连续特征和交叉特征。FM 擅长二阶交叉,Wide&Deep 兼顾记忆和泛化,DeepFM 自动学习低阶与高阶交叉,DCN 通过显式交叉网络建模特征组合。

03

看行为序列

如果用户历史行为对点击很关键,DIN、DIEN 等模型会比普通拼接特征更适合,因为它们能根据候选 item 对历史行为做兴趣激活。若没有稳定序列特征,盲目使用序列模型可能增加成本但收益有限。

04

看业务目标

真实推荐广告系统往往不只优化点击,还要考虑转化、时长、留存、GMV 或负反馈。多目标任务可以考虑 MMoE、PLE 等结构,同时要处理目标冲突、样本延迟和不同目标权重。

05

看上线约束

模型选型还受延迟、吞吐、特征获取成本、模型大小、更新频率和可解释性影响。复杂模型离线 AUC 高但线上推理慢、特征缺失多或校准差,最终效果也可能不好。

易错点

  • 只背模型名,不说明特征形态和业务目标如何影响选型。
  • 忽略简单基线,直接假设越复杂的深度模型越好。
  • 只看 AUC,不看校准、分桶、延迟和线上收益。
  • 没有考虑行为序列、多目标和特征服务成本。

面试官追问

Wide&Deep 适合解决什么问题?

Wide 部分记忆高频强规则和人工交叉特征,Deep 部分学习稀疏特征 embedding 的泛化表达,适合同时需要记忆和泛化的 CTR 场景。

AUC 提升很小还值得上线吗?

要看样本规模、业务敏感度、线上成本和实验显著性。大流量业务中很小的离线提升也可能有价值,但必须通过线上 A/B 和成本评估确认。

为什么 CTR 模型要关注校准?

CTR 分数常用于排序、出价或阈值决策。排序好不代表概率准确,校准差会影响后续策略和收益估计,因此 LogLoss、校准曲线也很重要。