真实面经题目 · 原创解析
特征工程中,如何处理高维稀疏特征?
高维稀疏特征常见于推荐、广告和搜索场景,处理思路是降维、哈希、Embedding、正则化和特征筛选。回答要说明稀疏性带来的计算、存储、过拟合和泛化问题,再按模型类型给出处理方法。
真实面经题目 · 原创解析
高维稀疏特征常见于推荐、广告和搜索场景,处理思路是降维、哈希、Embedding、正则化和特征筛选。回答要说明稀疏性带来的计算、存储、过拟合和泛化问题,再按模型类型给出处理方法。
高维稀疏特征的问题是维度大、非零少、存储和计算成本高,且容易过拟合。处理上可以先做特征筛选和低频合并,减少无效类别;再用 one-hot 加稀疏存储、特征哈希或统计编码控制维度;在深度模型中通常用 Embedding 把稀疏 ID 映射成稠密向量;训练时配合 L1/L2 正则、dropout、频次阈值和线上特征监控,防止长尾噪声影响模型。
高维稀疏特征通常来自用户 ID、商品 ID、类目、搜索词和交叉特征。它们的信息量可能很强,但会带来参数规模大、样本覆盖不足、计算存储成本高和长尾过拟合等问题。
线性模型可以使用 one-hot 和稀疏矩阵存储,再配合 L1 正则做特征选择。也可以合并低频类别、做频次或目标统计编码,但目标编码要防止数据泄漏,必须在交叉验证或时间切分内计算。
特征哈希能把巨大类别空间压到固定维度,适合线上稳定和内存受限场景,但会有哈希冲突。PCA、SVD、特征选择和业务规则降维也能减少维度,但要评估信息损失。
推荐和广告模型常用 Embedding 表把稀疏 ID 映射成低维稠密向量,再和连续特征、上下文特征拼接。Embedding 需要关注维度选择、冷启动、低频截断、共享策略和在线更新一致性。
线上要监控特征覆盖率、缺失率、未知类别比例、Embedding 表大小和长尾分布漂移。高维稀疏特征不是只在训练阶段处理,服务端字典、特征版本和离在线一致性同样关键。
优点是无需维护完整字典、维度固定、线上实现简单;缺点是哈希冲突不可避免,重要特征被冲突污染时可能影响效果。
要结合类别规模、样本量、模型容量和线上成本。维度太小表达不足,太大容易过拟合并增加内存和延迟,通常通过验证集和分桶指标调参。
如果用全量标签均值编码训练样本,样本自己的标签会进入特征,导致离线指标虚高。应使用时间切分、K 折或历史窗口统计。