深度点击率预估模型如何选型？｜百度算法面经解析

60 秒回答模板

CTR 模型选型先看问题：特征是否稀疏高维，是否有强交叉特征，用户行为序列是否重要，是否多目标，线上延迟预算多少。简单基线可以从 LR、GBDT、FM 开始；大规模稀疏特征和非线性交叉可考虑 Wide&Deep、DeepFM、DCN；有用户历史兴趣序列可考虑 DIN/DIEN；多任务场景可考虑 MMoE、PLE。最终用 AUC、LogLoss、校准、分桶和线上 A/B 判断。

考点 基线先行

难度 算法岗真实面经题

回答目标 讲清方法、取舍和追问

深入解析

先建基线

CTR 预估不要一开始就堆复杂模型。LR、GBDT、FM 或简单 DNN 可以作为基线，帮助判断特征质量和问题难度。基线稳定后再引入深度模型，否则复杂模型可能掩盖数据、标签或特征管线问题。

看特征形态

CTR 场景通常有大量稀疏类别特征、连续特征和交叉特征。FM 擅长二阶交叉，Wide&Deep 兼顾记忆和泛化，DeepFM 自动学习低阶与高阶交叉，DCN 通过显式交叉网络建模特征组合。

看行为序列

如果用户历史行为对点击很关键，DIN、DIEN 等模型会比普通拼接特征更适合，因为它们能根据候选 item 对历史行为做兴趣激活。若没有稳定序列特征，盲目使用序列模型可能增加成本但收益有限。

看业务目标

真实推荐广告系统往往不只优化点击，还要考虑转化、时长、留存、GMV 或负反馈。多目标任务可以考虑 MMoE、PLE 等结构，同时要处理目标冲突、样本延迟和不同目标权重。

看上线约束

模型选型还受延迟、吞吐、特征获取成本、模型大小、更新频率和可解释性影响。复杂模型离线 AUC 高但线上推理慢、特征缺失多或校准差，最终效果也可能不好。

易错点

只背模型名，不说明特征形态和业务目标如何影响选型。
忽略简单基线，直接假设越复杂的深度模型越好。
只看 AUC，不看校准、分桶、延迟和线上收益。
没有考虑行为序列、多目标和特征服务成本。

面试官追问

Wide&Deep 适合解决什么问题？

Wide 部分记忆高频强规则和人工交叉特征，Deep 部分学习稀疏特征 embedding 的泛化表达，适合同时需要记忆和泛化的 CTR 场景。

AUC 提升很小还值得上线吗？

要看样本规模、业务敏感度、线上成本和实验显著性。大流量业务中很小的离线提升也可能有价值，但必须通过线上 A/B 和成本评估确认。

为什么 CTR 模型要关注校准？

CTR 分数常用于排序、出价或阈值决策。排序好不代表概率准确，校准差会影响后续策略和收益估计，因此 LogLoss、校准曲线也很重要。