标签题目
正则化相关面试题
L1 和 L2 正则化的区别是什么?
L1 和 L2 正则化都是限制模型复杂度、缓解过拟合的方法。L1 加的是参数绝对值和,容易产生稀疏权重;L2 加的是参数平方和,会平滑地压小权重,也常被称为权重衰减。
XGBoost 如何实现正则化和并行化?
XGBoost 的正则化体现在目标函数和树结构约束中,并行化主要体现在特征分裂候选和直方图统计等计算过程,而不是每棵树完全独立并行。
如何缓解过拟合?
缓解过拟合要从数据、模型容量、正则化、训练策略和评估切片一起回答,核心是降低模型对训练集噪声和偶然模式的依赖。
同题还出现在 1 个公司岗位
为什么 RMSNorm 在大模型中比 LayerNorm 更常见?
这题考 RMSNorm 为什么在大模型中常见,回答重点是它去掉均值中心化,只按均方根做尺度归一化,计算更简单且通常足够稳定。
大模型微调为什么会出现灾难性遗忘,如何用数据混合、正则、回放、冻结参数和评测回归缓解?
这题考的是微调稳定性:目标不是背几个缓解方法,而是能解释窄域训练为什么会覆盖旧能力,并给出数据、参数更新和回归评测三条防线。
LoRA alpha 过强或过弱会带来什么影响,增量训练出现灾难性遗忘时如何排查和缓解?
这题考的是候选人是否理解 LoRA 增量缩放和遗忘之间的关系,并能从数据分布、训练策略、正则约束和回归评测上解决增量训练稳定性问题。
Transformer 中 Pre-Norm 和 Post-Norm 有什么区别,为什么会影响深层模型训练稳定性?
这题考的是 Transformer 残差块里 LayerNorm 放置位置对梯度流和深层训练的影响:Pre-Norm 更利于深层稳定训练,Post-Norm 表达形式经典但更依赖 warmup、初始化和训练技巧,二者还有最终性能与稳定性的取舍。
同题还出现在 1 个公司岗位
如何判断一个机器学习任务已经训练充分,可以从离线指标、泛化能力、过拟合、线上验证和业务门槛验收?
这题考察的是候选人是否能从测试和工程视角判断机器学习模型“训练好了”。好的回答不能只说 loss 收敛,而要覆盖目标指标、训练/验证曲线、泛化能力、过拟合排查、基线对比、鲁棒性测试、线上验证和业务验收门槛。
XGBoost 主要缓解偏差还是方差问题?它如何通过 Boosting、正则化、Shrinkage、采样和树结构约束影响泛化?
这题的标准回答不是简单选偏差或方差,而是说明 Boosting 主体上通过逐轮拟合残差或负梯度降低偏差,同时 XGBoost 又用正则化、Shrinkage、采样、树深限制和早停来控制方差。回答要能讲出二阶梯度、叶子权重、分裂增益、复杂度惩罚等机制,并结合验证集曲线判断模型是在欠拟合还是过拟合。
为什么梯度下降在机器学习优化中有效?如何理解梯度方向、学习率、局部最优和非凸损失?
这题考的是对梯度下降有效性的本质理解:在可微损失函数附近,负梯度方向是一阶近似下让损失下降最快的方向,小步更新可以逐步降低目标函数。回答要进一步解释学习率、凸与非凸、随机梯度、鞍点、局部最优、归一化和收敛诊断,不能停在一句沿着梯度反方向走。
Dropout 在训练和推理阶段分别如何处理,为什么测试时通常关闭随机丢弃?
这题考 Dropout 的训练和推理差异。高质量回答要说明训练期采样 Bernoulli mask,常用 inverted dropout 按 1/(1-p) 放大保留激活;推理期切到 eval 模式关闭随机丢弃,使用完整网络并保持期望一致,同时补充 MC Dropout 例外和框架常见坑。