真实面经题目 · 原创解析
如何缓解过拟合?
缓解过拟合要从数据、模型容量、正则化、训练策略和评估切片一起回答,核心是降低模型对训练集噪声和偶然模式的依赖。
出现于 2 个公司岗位
真实面经题目 · 原创解析
缓解过拟合要从数据、模型容量、正则化、训练策略和评估切片一起回答,核心是降低模型对训练集噪声和偶然模式的依赖。
过拟合表现为训练集效果很好、验证集或线上效果差。缓解方法包括增加或清洗数据、数据增强、降低模型复杂度、L1/L2 正则、Dropout、早停、交叉验证、集成、特征筛选和更稳的验证集划分。实际排查时先确认训练验证分布是否一致,再看模型容量、特征泄漏、标签噪声和训练轮数。不能只背正则化,要能说明每种方法降低方差的机制。
典型信号是训练误差持续下降,但验证误差上升或线上指标不升反降。要先排除数据分布不一致、验证集污染、指标口径变化和特征泄漏,否则容易误判。
增加样本、清洗错误标签、数据增强、重采样和合理划分训练验证集,都能让模型看到更稳定的规律,而不是记住少数样本的偶然模式。
降低树深、减少参数、剪枝、减少无效特征或使用更简单模型,可以降低方差。模型容量过大而样本不足时,复杂模型很容易记住训练集细节。
L1/L2、权重衰减、Dropout、早停、label smoothing 和 batch norm 等方法都能约束模型学习过程,让参数不要过度贴合训练样本。
用交叉验证、时间切分、业务切片和线上 A/B 实验检查泛化。推荐或风控场景还要看新用户、长尾物料、低频类别等切片是否同步改善。
L1 更容易产生稀疏权重,适合特征选择;L2 会平滑地惩罚大权重,常用于提升泛化稳定性。
训练后期模型可能开始记忆训练集噪声,早停在验证集最优附近停止,避免继续贴合噪声。
它扩大样本变化范围,让模型学习对合理扰动不敏感的稳定规律,从而降低方差。