0、1 分类问题应使用什么损失函数，为什么不能用 MSE？｜字节跳动算法面经解析

60 秒回答模板

二分类一般把模型输出经过 sigmoid 得到正类概率 p，再用二元交叉熵：- y log p - (1-y) log(1-p)。它对应伯努利分布的负对数似然，优化目标和概率分类一致。MSE 更适合回归，虽然也能训练二分类，但和 sigmoid 组合时容易在预测接近 0 或 1 且错得很离谱时梯度变小，优化效率差；同时 MSE 不直接对应分类的最大似然目标。面试里可以补充类别不平衡时会加权 BCE、focal loss 或调整阈值。

考点 BCE 对应伯努利

难度 真实面经题

回答目标 讲清方法、取舍和追问

深入解析

概率建模不同

二分类标签服从伯努利分布，BCE 是负对数似然；MSE 假设高斯误差，更贴近连续值回归。

梯度性质不同

sigmoid 加 BCE 的梯度更直接，预测错得越明显惩罚越大；sigmoid 加 MSE 可能因 sigmoid 饱和导致梯度过小。

工程扩展

不平衡分类可用 class weight、focal loss、重采样和阈值移动，评估时看 AUC、PR-AUC、Recall、Precision 等指标。

输出和阈值分离

训练损失优化的是概率估计，不等于最终业务决策阈值。线上分类还要根据召回、误报、成本和业务风险选择阈值，并做概率校准和切片评估。

易错点

不要只背交叉熵名字，要说明它和伯努利负对数似然的关系。
不要说 MSE 完全不能用，它是不合适而不是数学上不可训练。
不要忽略 sigmoid 饱和带来的梯度问题。

面试官追问

多分类用什么损失？

单标签多分类通常用 softmax 加交叉熵，多标签分类通常用多个 sigmoid 加 BCE。

类别不平衡怎么办？

可以用加权 BCE、focal loss、过采样/欠采样、阈值调整和更合适的 PR-AUC 等指标。

MSE 能不能用于二分类？

可以训练，但概率解释和优化性质通常不如交叉熵，尤其配合 sigmoid 时更容易梯度低效。