60 秒回答模板

L1 正则是在损失里加 lambda 乘以参数绝对值和,几何上会让最优解更容易落在坐标轴上,所以很多权重变成 0,适合做特征选择和稀疏模型。L2 正则是在损失里加 lambda 乘以参数平方和,会持续惩罚大权重,让参数更平滑地变小,一般不容易精确为 0,适合提升模型稳定性和泛化。两者都通过限制模型容量缓解过拟合,lambda 越大约束越强,但过大也会欠拟合。

考点 L1 绝对值
难度 算法岗真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

先定义惩罚项

L1 正则惩罚参数绝对值和,L2 正则惩罚参数平方和。它们都会把原始经验损失和模型复杂度结合起来,避免模型为了拟合训练集而使用过大的权重。

02

稀疏性差异

L1 的绝对值函数在 0 点不可导,优化时更容易把部分参数压到精确 0,因此有特征选择效果。L2 的平方惩罚是平滑的,通常会把权重变小但不直接变成 0。

03

几何直觉

从约束空间看,L1 的约束区域有尖角,损失等高线更容易在坐标轴尖角处相切;L2 的约束区域更圆滑,解更倾向于分散在多个小权重上。

04

适用场景

当特征很多且希望自动筛掉无效特征时,L1 更有吸引力;当特征普遍有弱信号、希望参数平滑稳定时,L2 更常用。深度学习里的 weight decay 通常接近 L2 思路。

05

调参和风险

正则强度 lambda 需要用验证集选择。太弱无法缓解过拟合,太强会让模型欠拟合。特征尺度也会影响正则效果,线性模型中通常要先做标准化。

易错点

  • 不要说 L2 会做特征选择,L2 通常只是压小权重,不会让大量权重精确为 0。
  • 不要忽略 lambda,正则效果主要由惩罚强度控制。
  • 不要把正则化当成一定提升效果,过强会欠拟合。
  • 不要忘记特征尺度,未标准化时 L1/L2 的比较可能失真。

面试官追问

为什么 L1 会产生稀疏解?

L1 的约束区域有尖角,优化解更容易落在坐标轴上;同时绝对值惩罚对小权重有持续拉向 0 的作用,因此很多参数会变成 0。

L2 和 weight decay 是一回事吗?

在普通 SGD 下二者形式很接近,都会让权重衰减;但在 Adam 等自适应优化器里,耦合 L2 和解耦 weight decay 的更新并不完全等价。

正则化前为什么常要做特征标准化?

不同特征尺度会让同样大小的权重含义不同,正则惩罚会偏向惩罚某些尺度下的参数,标准化能让惩罚更公平。