特征工程中，如何处理高维稀疏特征？｜滴滴算法面经解析

60 秒回答模板

高维稀疏特征的问题是维度大、非零少、存储和计算成本高，且容易过拟合。处理上可以先做特征筛选和低频合并，减少无效类别；再用 one-hot 加稀疏存储、特征哈希或统计编码控制维度；在深度模型中通常用 Embedding 把稀疏 ID 映射成稠密向量；训练时配合 L1/L2 正则、dropout、频次阈值和线上特征监控，防止长尾噪声影响模型。

考点 问题是稀疏长尾

难度 算法岗真实面经题

回答目标 讲清方法、取舍和追问

深入解析

先识别问题

高维稀疏特征通常来自用户 ID、商品 ID、类目、搜索词和交叉特征。它们的信息量可能很强，但会带来参数规模大、样本覆盖不足、计算存储成本高和长尾过拟合等问题。

传统模型处理

线性模型可以使用 one-hot 和稀疏矩阵存储，再配合 L1 正则做特征选择。也可以合并低频类别、做频次或目标统计编码，但目标编码要防止数据泄漏，必须在交叉验证或时间切分内计算。

哈希和降维

特征哈希能把巨大类别空间压到固定维度，适合线上稳定和内存受限场景，但会有哈希冲突。PCA、SVD、特征选择和业务规则降维也能减少维度，但要评估信息损失。

深度模型处理

推荐和广告模型常用 Embedding 表把稀疏 ID 映射成低维稠密向量，再和连续特征、上下文特征拼接。Embedding 需要关注维度选择、冷启动、低频截断、共享策略和在线更新一致性。

工程和监控

线上要监控特征覆盖率、缺失率、未知类别比例、Embedding 表大小和长尾分布漂移。高维稀疏特征不是只在训练阶段处理，服务端字典、特征版本和离在线一致性同样关键。

易错点

不要只说 one-hot，面试官通常还会追问稀疏存储、哈希和 Embedding。
不要忽略低频类别，长尾噪声很容易让模型记忆训练集。
不要在全量数据上做目标编码，否则会造成数据泄漏。
不要只考虑离线训练，线上字典和特征版本不一致会直接导致效果退化。

面试官追问

特征哈希的优缺点是什么？

优点是无需维护完整字典、维度固定、线上实现简单；缺点是哈希冲突不可避免，重要特征被冲突污染时可能影响效果。

Embedding 维度怎么选？

要结合类别规模、样本量、模型容量和线上成本。维度太小表达不足，太大容易过拟合并增加内存和延迟，通常通过验证集和分桶指标调参。

目标编码为什么容易数据泄漏？

如果用全量标签均值编码训练样本，样本自己的标签会进入特征，导致离线指标虚高。应使用时间切分、K 折或历史窗口统计。