Wide&Deep 的原理是什么，为什么适合推荐系统？｜小红书算法面经解析

60 秒回答模板

先定义模型结构：wide 是带人工交叉特征的线性模型，deep 是类别特征 embedding 后接 MLP。再说明两者互补：wide 负责 memorization，deep 负责 generalization。最后落到推荐场景：用户、物品、上下文特征稀疏且组合爆炸，联合训练能兼顾高频规则、长尾泛化和线上可解释性。

考点 联合优化

难度 真实面经题

回答目标 讲清原理、实现和边界

深入解析

结构层

输入通常由用户、物品、上下文等稀疏与连续特征组成。wide 侧保留原始 one-hot 或人工交叉特征，直接学习强规则权重；deep 侧把稀疏 ID 映射为 embedding，再与连续特征拼接进 MLP，学习无法手工穷举的组合关系。

目标层

两个分支服务同一个预测目标，如点击率、转化率或排序相关损失。wide 输出可解释的线性分数，deep 输出非线性表征分数，合并后经 sigmoid 或排序头训练；端到端更新能让交叉规则和 embedding 同时围绕业务目标校准。

记忆层

wide 的价值是 memorization：对历史上高频且稳定的共现模式给出直接权重，例如用户偏好类目与物品类目、地域与内容类型、设备与行为场景。它不需要深层网络重新推理这些强信号，适合保证头部规则和精确命中。

泛化层

deep 的价值是 generalization：相似用户、相似物品会在 embedding 空间共享统计强度，MLP 可以学习高阶非线性组合。即使某个用户物品组合没有在训练集中完整出现，也能借助相近 ID、属性和上下文得到较合理的预测。

工程层

工程上要把稳定、高价值、可解释的交叉放入 wide，把规模大、长尾多、难枚举的稀疏特征交给 deep。上线时重点检查训练服务特征一致性、样本选择偏差、embedding 维度和 MLP 深度带来的延迟，以及 wide 规则是否过拟合历史噪声。

易错点

只说 wide 是浅层、deep 是深层，没有解释记忆和泛化的分工。
把 wide 侧理解成必须只用连续特征，忽略稀疏交叉特征。
认为 deep 一定全面优于 wide，忽略高频强规则的直接记忆价值。
没有结合推荐中的用户、物品、上下文稀疏特征说明适用性。

面试官追问

Wide&Deep 和 FM 的特征交叉有什么区别？

FM 自动学习二阶特征交叉，Wide&Deep 的 wide 侧通常依赖人工或规则交叉，deep 侧再学习高阶非线性表达；两者可以互补。

Wide&Deep 相比 DeepFM 的主要差异是什么？

DeepFM 用 FM 分支自动建模低阶交叉，Wide&Deep 的 wide 分支更偏人工交叉和强规则记忆，可解释性和可控性更强。

wide 侧交叉特征应该如何选择？

优先选择业务上稳定、高频、强相关、线上可获取的交叉，如用户类目偏好、地域场景和物品属性组合，并通过消融和线上实验验证。

线上如何降低 deep 部分的推理延迟？

可以控制 embedding 维度和 MLP 深度，做特征裁剪、批量推理、缓存热门 embedding，必要时用蒸馏或轻量模型替换。