真实面经题目 · 原创解析
深度点击率预估模型如何选型?
深度点击率预估模型选型要看特征规模、样本量、实时性、可解释性和业务阶段。回答时可以从 LR/GBDT 到 Wide&Deep、DeepFM、DIN、DCN、MMoE 等模型演进讲起,再说明如何用离线指标和线上 A/B 验证。
真实面经题目 · 原创解析
深度点击率预估模型选型要看特征规模、样本量、实时性、可解释性和业务阶段。回答时可以从 LR/GBDT 到 Wide&Deep、DeepFM、DIN、DCN、MMoE 等模型演进讲起,再说明如何用离线指标和线上 A/B 验证。
CTR 模型选型先看问题:特征是否稀疏高维,是否有强交叉特征,用户行为序列是否重要,是否多目标,线上延迟预算多少。简单基线可以从 LR、GBDT、FM 开始;大规模稀疏特征和非线性交叉可考虑 Wide&Deep、DeepFM、DCN;有用户历史兴趣序列可考虑 DIN/DIEN;多任务场景可考虑 MMoE、PLE。最终用 AUC、LogLoss、校准、分桶和线上 A/B 判断。
CTR 预估不要一开始就堆复杂模型。LR、GBDT、FM 或简单 DNN 可以作为基线,帮助判断特征质量和问题难度。基线稳定后再引入深度模型,否则复杂模型可能掩盖数据、标签或特征管线问题。
CTR 场景通常有大量稀疏类别特征、连续特征和交叉特征。FM 擅长二阶交叉,Wide&Deep 兼顾记忆和泛化,DeepFM 自动学习低阶与高阶交叉,DCN 通过显式交叉网络建模特征组合。
如果用户历史行为对点击很关键,DIN、DIEN 等模型会比普通拼接特征更适合,因为它们能根据候选 item 对历史行为做兴趣激活。若没有稳定序列特征,盲目使用序列模型可能增加成本但收益有限。
真实推荐广告系统往往不只优化点击,还要考虑转化、时长、留存、GMV 或负反馈。多目标任务可以考虑 MMoE、PLE 等结构,同时要处理目标冲突、样本延迟和不同目标权重。
模型选型还受延迟、吞吐、特征获取成本、模型大小、更新频率和可解释性影响。复杂模型离线 AUC 高但线上推理慢、特征缺失多或校准差,最终效果也可能不好。
Wide 部分记忆高频强规则和人工交叉特征,Deep 部分学习稀疏特征 embedding 的泛化表达,适合同时需要记忆和泛化的 CTR 场景。
要看样本规模、业务敏感度、线上成本和实验显著性。大流量业务中很小的离线提升也可能有价值,但必须通过线上 A/B 和成本评估确认。
CTR 分数常用于排序、出价或阈值决策。排序好不代表概率准确,校准差会影响后续策略和收益估计,因此 LogLoss、校准曲线也很重要。