60 秒回答模板

如果问基础大语言模型训练,通常回答交叉熵损失。模型在每个位置预测下一个 token 的词表概率,真实 token 作为 one-hot 或标签,交叉熵会惩罚真实 token 概率低的情况。SFT 本质上也常用监督交叉熵,只是训练数据变成指令和答案。偏好对齐阶段不止交叉熵,奖励模型会学习好坏答案的偏好,DPO 会直接优化被偏好答案相对未被偏好答案的概率差。

考点 交叉熵主线
难度 真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

预训练看下一个 token

自回归大模型的核心目标是根据前文预测下一个 token。模型输出词表分布,训练标签是真实下一个 token,交叉熵让真实 token 的概率尽量变高。

02

交叉熵的含义

交叉熵可以理解为真实分布和模型预测分布之间的差异。预测越确信正确 token,损失越低;把概率分给错误 token 越多,损失越高。

03

SFT 延续监督目标

监督微调通常仍然使用 token 级交叉熵,只是样本从通用语料变成指令、问题、答案或多轮对话。它让模型学会按期望格式回答。

04

偏好阶段目标不同

RLHF 会训练奖励模型,再优化策略让回答获得更高奖励;DPO 等方法直接使用偏好对,让模型提高 chosen 回答相对 rejected 回答的概率。

05

回答要分训练阶段

面试里不要只说一个函数名。更稳的是按预训练、SFT、奖励模型和偏好优化区分,因为不同阶段数据形式和优化目标不同。

易错点

  • 不要只答“loss 是交叉熵”就结束,至少要补 next-token prediction 的训练方式。
  • 不要把预训练、SFT 和偏好对齐混成一个阶段。
  • 不要把奖励模型损失和语言模型预训练损失说成完全一样。

面试官追问

交叉熵为什么适合语言模型?

语言模型输出的是词表概率分布,交叉熵正好衡量真实 token 在预测分布中的负对数概率。

SFT 和预训练的损失有什么不同?

形式上常都是交叉熵,但数据分布和 mask 方式不同,SFT 更关注指令响应部分的监督学习。

DPO 优化的是什么?

DPO 利用偏好对,提高被偏好回答相对未被偏好回答的概率,同时用参考模型约束偏移幅度。