正则化面试题解析

标签题目

正则化相关面试题

L1 和 L2 正则化都是限制模型复杂度、缓解过拟合的方法。L1 加的是参数绝对值和，容易产生稀疏权重；L2 加的是参数平方和，会平滑地压小权重，也常被称为权重衰减。

XGBoost 的正则化体现在目标函数和树结构约束中，并行化主要体现在特征分裂候选和直方图统计等计算过程，而不是每棵树完全独立并行。

缓解过拟合要从数据、模型容量、正则化、训练策略和评估切片一起回答，核心是降低模型对训练集噪声和偶然模式的依赖。

同题还出现在 1 个公司岗位

这题考 RMSNorm 为什么在大模型中常见，回答重点是它去掉均值中心化，只按均方根做尺度归一化，计算更简单且通常足够稳定。

这题考的是微调稳定性：目标不是背几个缓解方法，而是能解释窄域训练为什么会覆盖旧能力，并给出数据、参数更新和回归评测三条防线。

这题考的是候选人是否理解 LoRA 增量缩放和遗忘之间的关系，并能从数据分布、训练策略、正则约束和回归评测上解决增量训练稳定性问题。

这题考的是 Transformer 残差块里 LayerNorm 放置位置对梯度流和深层训练的影响：Pre-Norm 更利于深层稳定训练，Post-Norm 表达形式经典但更依赖 warmup、初始化和训练技巧，二者还有最终性能与稳定性的取舍。

同题还出现在 1 个公司岗位

这题考察的是候选人是否能从测试和工程视角判断机器学习模型“训练好了”。好的回答不能只说 loss 收敛，而要覆盖目标指标、训练/验证曲线、泛化能力、过拟合排查、基线对比、鲁棒性测试、线上验证和业务验收门槛。

这题的标准回答不是简单选偏差或方差，而是说明 Boosting 主体上通过逐轮拟合残差或负梯度降低偏差，同时 XGBoost 又用正则化、Shrinkage、采样、树深限制和早停来控制方差。回答要能讲出二阶梯度、叶子权重、分裂增益、复杂度惩罚等机制，并结合验证集曲线判断模型是在欠拟合还是过拟合。

这题考的是对梯度下降有效性的本质理解：在可微损失函数附近，负梯度方向是一阶近似下让损失下降最快的方向，小步更新可以逐步降低目标函数。回答要进一步解释学习率、凸与非凸、随机梯度、鞍点、局部最优、归一化和收敛诊断，不能停在一句沿着梯度反方向走。

这题考 Dropout 的训练和推理差异。高质量回答要说明训练期采样 Bernoulli mask，常用 inverted dropout 按 1/(1-p) 放大保留激活；推理期切到 eval 模式关闭随机丢弃，使用完整网络并保持期望一致，同时补充 MC Dropout 例外和框架常见坑。