L1 和 L2 正则化的区别是什么？｜字节跳动算法面经解析

60 秒回答模板

L1 正则是在损失里加 lambda 乘以参数绝对值和，几何上会让最优解更容易落在坐标轴上，所以很多权重变成 0，适合做特征选择和稀疏模型。L2 正则是在损失里加 lambda 乘以参数平方和，会持续惩罚大权重，让参数更平滑地变小，一般不容易精确为 0，适合提升模型稳定性和泛化。两者都通过限制模型容量缓解过拟合，lambda 越大约束越强，但过大也会欠拟合。

考点 L1 绝对值

难度 算法岗真实面经题

回答目标 讲清方法、取舍和追问

深入解析

先定义惩罚项

L1 正则惩罚参数绝对值和，L2 正则惩罚参数平方和。它们都会把原始经验损失和模型复杂度结合起来，避免模型为了拟合训练集而使用过大的权重。

稀疏性差异

L1 的绝对值函数在 0 点不可导，优化时更容易把部分参数压到精确 0，因此有特征选择效果。L2 的平方惩罚是平滑的，通常会把权重变小但不直接变成 0。

几何直觉

从约束空间看，L1 的约束区域有尖角，损失等高线更容易在坐标轴尖角处相切；L2 的约束区域更圆滑，解更倾向于分散在多个小权重上。

适用场景

当特征很多且希望自动筛掉无效特征时，L1 更有吸引力；当特征普遍有弱信号、希望参数平滑稳定时，L2 更常用。深度学习里的 weight decay 通常接近 L2 思路。

调参和风险

正则强度 lambda 需要用验证集选择。太弱无法缓解过拟合，太强会让模型欠拟合。特征尺度也会影响正则效果，线性模型中通常要先做标准化。

易错点

不要说 L2 会做特征选择，L2 通常只是压小权重，不会让大量权重精确为 0。
不要忽略 lambda，正则效果主要由惩罚强度控制。
不要把正则化当成一定提升效果，过强会欠拟合。
不要忘记特征尺度，未标准化时 L1/L2 的比较可能失真。

面试官追问

为什么 L1 会产生稀疏解？

L1 的约束区域有尖角，优化解更容易落在坐标轴上；同时绝对值惩罚对小权重有持续拉向 0 的作用，因此很多参数会变成 0。

L2 和 weight decay 是一回事吗？

在普通 SGD 下二者形式很接近，都会让权重衰减；但在 Adam 等自适应优化器里，耦合 L2 和解耦 weight decay 的更新并不完全等价。

正则化前为什么常要做特征标准化？

不同特征尺度会让同样大小的权重含义不同，正则惩罚会偏向惩罚某些尺度下的参数，标准化能让惩罚更公平。