真实面经题目 · 原创解析

为什么聊天大模型通常不能跳过 SFT 直接做强化学习后训练,Reward Model、DPO/PPO 和稳定性约束分别解决什么问题?

这题考大模型后训练的稳定性理解:SFT 先把模型带到可对话、可遵循指令的分布,强化学习或偏好优化再做对齐;直接 RL 容易稀疏奖励、探索失控和能力退化。

出现于:阿里巴巴 · 算法

60 秒回答模板

聊天大模型通常不能跳过 SFT 直接做强化学习,核心原因是 RL 需要一个已经能产生合理回答的初始策略。基础预训练模型学到的是语言建模能力,不一定会稳定遵循指令、按对话格式回答、拒绝不该回答的问题或保持有帮助的表达。SFT 用人工或高质量示范数据把模型先拉到“会对话、会按格式完成任务”的分布,提供一个可用的行为先验。之后 Reward Model、PPO、DPO 或其他偏好优化才有意义:它们不是从零教模型说话,而是在已有能力上优化偏好,例如更有帮助、更安全、更符合人类选择。直接 RL 的问题很多:奖励信号稀疏且噪声大,探索空间是巨大文本空间,模型可能为了拿高 reward 学到投机表达,训练不稳定,还可能偏离原模型导致语言能力、知识能力和安全边界退化。因此后训练通常要分阶段:预训练给知识和语言能力,SFT 给指令遵循和对话格式,偏好优化调整排序偏好,并用 KL 约束、参考模型、评测集和红线指标控制不要跑偏。

考点 SFT 的作用
难度 真实面经题
回答目标 让回答者能解释聊天模型后训练为什么通常先 SFT 再偏好优化,并能讲清 Reward Model、PPO、DPO、KL 约束和回归评测在稳定性中的角色。

深入解析

01

先区分预训练、SFT 和偏好优化

预训练让模型学语言分布、知识和通用表示;SFT 用示范样本教模型按指令和对话格式输出;偏好优化再让模型在多个可行回答中更偏向人类认为有帮助、安全、简洁或符合要求的回答。三者解决的问题不同,不能把后训练全部混成强化学习。

02

RL 需要可用的初始策略

强化学习不是在无限文本空间里从零探索出聊天能力。若初始模型还不会稳定理解指令或生成合格回答,reward 很难提供有效学习信号。SFT 提供一个接近人类示范的初始策略,让后续偏好优化只需微调行为倾向,而不是重新学习基本对话能力。

03

直接 RL 的奖励和探索都很困难

聊天回答是长序列,动作空间巨大,奖励往往只在完整回答后给出,而且 reward 本身可能来自模型或人工偏好,存在噪声和偏差。直接 RL 容易出现高方差、样本效率低、训练震荡和 reward hacking。模型可能学会迎合奖励模型,而不是生成真正更好的答案。

04

Reward Model 负责偏好信号而不是示范行为

Reward Model 通常学习“哪个回答更好”的排序偏好,它能给候选回答打分,但不等价于高质量示范数据。它告诉模型朝哪个方向优化,却不负责完整地教格式、步骤、拒答和领域表达。没有 SFT 行为基线,reward 信号很难把模型稳定带到好对话分布。

05

PPO 和 DPO 都需要稳定边界

PPO 通过策略梯度和 KL 约束相对参考模型更新,能直接优化 reward,但实现复杂且容易不稳。DPO 把偏好对转成更直接的优化目标,避开显式在线 RL 流程,但仍依赖好的 SFT 模型和偏好数据。两者都不是跳过 SFT 的理由,而是在 SFT 之后调整偏好。

06

稳定性约束防止能力退化

后训练必须防止模型为偏好目标牺牲基础能力。常见控制包括 KL/reference 约束、学习率和步数控制、数据混合、拒答和安全红线、能力回归评测、分桶评估、人工抽检和上线灰度。目标是改进对齐行为,同时保持知识、推理、格式和多场景泛化。

易错点

  • 把 SFT、Reward Model、PPO、DPO 都混称为 RL,无法说明各自解决的问题。
  • 认为强化学习更高级,所以可以从基础模型直接训练出聊天能力。
  • 忽略文本生成动作空间巨大、奖励稀疏和高方差,低估直接 RL 的训练难度。
  • 把 Reward Model 当成标准答案生成器,忘记它主要学习偏好排序。
  • 认为 DPO 可以完全替代 SFT,没有说明它依赖已有策略和偏好数据。
  • 只追求偏好分提升,不做 KL 约束、能力回归、安全红线和分桶评估。
  • 没有提 reward hacking、过度拒答、模板化和基础能力退化这些后训练风险。

面试官追问

为什么 Reward Model 数据不能直接当 SFT 数据用?

Reward Model 数据通常是偏好对或排序标签,表达的是 A 比 B 好,不一定每条都是可直接模仿的最佳示范。SFT 需要高质量目标答案来教模型怎么说,偏好数据更适合教模型怎么选。

DPO 是否意味着不需要 RLHF?

DPO 可以不用显式训练 Reward Model 和在线 PPO 流程,但它仍属于基于偏好数据的后训练方法。它通常仍需要一个 SFT 后的参考模型和高质量偏好对,并不意味着可以跳过 SFT。

直接 RL 最容易出现什么坏行为?

容易出现 reward hacking,例如生成迎合评分器的模板化回答、过度拒答、过度自信、啰嗦堆安全话术,或者牺牲准确性来换取看似更高的偏好分。

KL 约束在 PPO 后训练中起什么作用?

KL 约束限制新策略相对参考模型偏离过大,防止模型为了追求 reward 破坏原有语言能力、知识能力和安全边界。它是稳定训练和保留能力的重要手段。

如何验证偏好优化没有伤害基础能力?

要做回归评测,覆盖知识问答、推理、数学、代码、长文本、拒答、安全、格式遵循和多语言等切片,并比较 SFT 基线、偏好优化后模型和线上反馈。