机器学习中的偏差和方差分别指什么，如何判断并降低它们？｜百度算法面经解析

60 秒回答模板

偏差和方差描述的是模型泛化误差的两个来源。偏差高，表示模型假设太简单或学不到真实规律，训练集和验证集表现都差，典型是欠拟合；方差高，表示模型对训练数据里的噪声太敏感，训练集表现很好但验证集差，典型是过拟合。判断时我会看训练误差、验证误差和学习曲线：训练误差高、验证误差也高，多半是高偏差；训练误差低、验证误差高，多半是高方差。降低偏差可以提高模型复杂度、增加有效特征、减少过强正则、训练更充分、换更合适的模型；降低方差可以增加数据、数据增强、加强正则化、早停、降模型复杂度、特征选择、集成或交叉验证调参。回答时还要说明偏差和方差通常存在取舍，目标不是让二者都为零，而是在验证集和真实业务分布上取得最好的泛化。

考点偏差

难度 真实面经题

回答目标 让回答能把偏差和方差从抽象定义落到可诊断、可优化的训练问题：看曲线判断原因，再分别用增强表达或增强稳定性来处理。

深入解析

偏差是学得太简单

偏差衡量模型平均预测和真实规律之间的系统性差距。高偏差通常来自模型表达能力不足、特征缺失、训练不充分、约束太强或假设错误。表现是训练集上也做不好，因为模型连已见样本的主要模式都没学到。

方差是对数据太敏感

方差衡量模型在不同训练样本上预测结果的波动程度。高方差模型会把训练集里的噪声、偶然样本和局部模式也学进去。表现是训练误差很低，但验证集或线上新数据误差明显升高。

用误差曲线判断问题

最常用诊断是训练误差和验证误差。训练误差高、验证误差高，说明模型欠拟合，偏差较高；训练误差低、验证误差高，说明模型过拟合，方差较高；两者都低说明泛化较好；两者都随数据变化异常时还要排查数据泄漏或分布漂移。

学习曲线能判断数据是否有用

如果增加训练数据后验证误差持续下降，而训练误差略升，说明高方差问题可能通过更多数据缓解。如果训练和验证误差都停在较高水平，单纯加数据帮助有限，更应该换特征、模型结构或优化目标来降低偏差。

降低偏差的方法

降低偏差通常要增强学习能力：增加有用特征和交互特征，换更复杂模型，减少过强正则化，训练更久，调低过高的 dropout 或剪枝强度，使用更合适的损失函数，或者改进标签和任务定义。核心是让模型能表达真实模式。

降低方差的方法

降低方差通常要提高稳定性：增加训练数据、数据增强、正则化、早停、降低模型复杂度、特征选择、dropout、bagging、交叉验证调参、模型集成和减少噪声标签。核心是让模型不要过度依赖训练集偶然性。

偏差方差存在取舍

模型越复杂，偏差可能下降，但方差可能上升；正则越强，方差可能下降，但偏差可能上升。实际训练要通过验证集、交叉验证、线上 A/B 或业务指标找到折中点，而不是追求训练集误差最低。

结合业务切片看泛化

算法面试中最好补一句：总体误差只是平均表现，还要看不同类别、长尾样本、时间段、用户群和困难样本的误差。某些切片上的高偏差或高方差，可能被整体指标掩盖，线上风险往往来自这些局部问题。

易错点

把偏差理解成数据采样偏见，把方差只理解成统计方差，没有落到模型泛化误差。
只背偏差方差定义，不会用训练误差和验证误差判断欠拟合或过拟合。
认为模型越复杂越好，忽略复杂度提高可能带来方差上升。
认为正则化永远有益，忽略正则过强会提高偏差。
高方差时只调模型结构，不考虑增加数据、清洗标签和数据增强。
只看总体准确率，不看切片误差和线上分布变化。
把训练集表现好等同于模型好，忽略泛化才是核心目标。

面试官追问

高偏差和高方差能同时存在吗？

可以。比如模型整体假设不对导致训练误差不低，同时某些复杂部分又对小样本噪声敏感。需要按切片和学习曲线具体诊断。

增加数据主要解决偏差还是方差？

通常更有助于降低方差，因为更多样本能减少模型对偶然数据的依赖。但如果模型能力不足，高偏差问题单靠加数据不一定解决。

正则化会影响偏差和方差吗？

会。适当正则能降低方差、提升泛化；正则过强会限制模型表达，导致偏差升高和欠拟合。

随机森林和 boosting 在偏差方差上有什么直观区别？

随机森林通过 bagging 降低方差；boosting 逐步拟合残差，常用于降低偏差，但如果控制不好也可能过拟合。

训练误差和验证误差都很低，还需要关注什么？

要确认没有数据泄漏，验证集和线上分布一致，并检查关键业务切片、时间外推和鲁棒性。