真实面经题目 · 原创解析
Wide&Deep 的原理是什么,为什么适合推荐系统?
Wide&Deep 将线性 wide 部分和深度 deep 部分联合训练。wide 侧擅长记住高频、明确的交叉规则,deep 侧通过 embedding 和多层网络学习稀疏特征的泛化表示,因此适合同时需要记忆历史共现和泛化到新组合的推荐系统。
真实面经题目 · 原创解析
Wide&Deep 将线性 wide 部分和深度 deep 部分联合训练。wide 侧擅长记住高频、明确的交叉规则,deep 侧通过 embedding 和多层网络学习稀疏特征的泛化表示,因此适合同时需要记忆历史共现和泛化到新组合的推荐系统。
先定义模型结构:wide 是带人工交叉特征的线性模型,deep 是类别特征 embedding 后接 MLP。再说明两者互补:wide 负责 memorization,deep 负责 generalization。最后落到推荐场景:用户、物品、上下文特征稀疏且组合爆炸,联合训练能兼顾高频规则、长尾泛化和线上可解释性。
输入通常由用户、物品、上下文等稀疏与连续特征组成。wide 侧保留原始 one-hot 或人工交叉特征,直接学习强规则权重;deep 侧把稀疏 ID 映射为 embedding,再与连续特征拼接进 MLP,学习无法手工穷举的组合关系。
两个分支服务同一个预测目标,如点击率、转化率或排序相关损失。wide 输出可解释的线性分数,deep 输出非线性表征分数,合并后经 sigmoid 或排序头训练;端到端更新能让交叉规则和 embedding 同时围绕业务目标校准。
wide 的价值是 memorization:对历史上高频且稳定的共现模式给出直接权重,例如用户偏好类目与物品类目、地域与内容类型、设备与行为场景。它不需要深层网络重新推理这些强信号,适合保证头部规则和精确命中。
deep 的价值是 generalization:相似用户、相似物品会在 embedding 空间共享统计强度,MLP 可以学习高阶非线性组合。即使某个用户物品组合没有在训练集中完整出现,也能借助相近 ID、属性和上下文得到较合理的预测。
工程上要把稳定、高价值、可解释的交叉放入 wide,把规模大、长尾多、难枚举的稀疏特征交给 deep。上线时重点检查训练服务特征一致性、样本选择偏差、embedding 维度和 MLP 深度带来的延迟,以及 wide 规则是否过拟合历史噪声。
FM 自动学习二阶特征交叉,Wide&Deep 的 wide 侧通常依赖人工或规则交叉,deep 侧再学习高阶非线性表达;两者可以互补。
DeepFM 用 FM 分支自动建模低阶交叉,Wide&Deep 的 wide 分支更偏人工交叉和强规则记忆,可解释性和可控性更强。
优先选择业务上稳定、高频、强相关、线上可获取的交叉,如用户类目偏好、地域场景和物品属性组合,并通过消融和线上实验验证。
可以控制 embedding 维度和 MLP 深度,做特征裁剪、批量推理、缓存热门 embedding,必要时用蒸馏或轻量模型替换。