为什么聊天大模型通常不能跳过 SFT 直接做强化学习后训练，Reward Model、DPO/PPO 和稳定性约束分别解决什么问题？｜阿里巴巴算法面经解析

60 秒回答模板

聊天大模型通常不能跳过 SFT 直接做强化学习，核心原因是 RL 需要一个已经能产生合理回答的初始策略。基础预训练模型学到的是语言建模能力，不一定会稳定遵循指令、按对话格式回答、拒绝不该回答的问题或保持有帮助的表达。SFT 用人工或高质量示范数据把模型先拉到“会对话、会按格式完成任务”的分布，提供一个可用的行为先验。之后 Reward Model、PPO、DPO 或其他偏好优化才有意义：它们不是从零教模型说话，而是在已有能力上优化偏好，例如更有帮助、更安全、更符合人类选择。直接 RL 的问题很多：奖励信号稀疏且噪声大，探索空间是巨大文本空间，模型可能为了拿高 reward 学到投机表达，训练不稳定，还可能偏离原模型导致语言能力、知识能力和安全边界退化。因此后训练通常要分阶段：预训练给知识和语言能力，SFT 给指令遵循和对话格式，偏好优化调整排序偏好，并用 KL 约束、参考模型、评测集和红线指标控制不要跑偏。

考点 SFT 的作用

难度 真实面经题

回答目标 让回答者能解释聊天模型后训练为什么通常先 SFT 再偏好优化，并能讲清 Reward Model、PPO、DPO、KL 约束和回归评测在稳定性中的角色。

深入解析

先区分预训练、SFT 和偏好优化

预训练让模型学语言分布、知识和通用表示；SFT 用示范样本教模型按指令和对话格式输出；偏好优化再让模型在多个可行回答中更偏向人类认为有帮助、安全、简洁或符合要求的回答。三者解决的问题不同，不能把后训练全部混成强化学习。

RL 需要可用的初始策略

强化学习不是在无限文本空间里从零探索出聊天能力。若初始模型还不会稳定理解指令或生成合格回答，reward 很难提供有效学习信号。SFT 提供一个接近人类示范的初始策略，让后续偏好优化只需微调行为倾向，而不是重新学习基本对话能力。

直接 RL 的奖励和探索都很困难

聊天回答是长序列，动作空间巨大，奖励往往只在完整回答后给出，而且 reward 本身可能来自模型或人工偏好，存在噪声和偏差。直接 RL 容易出现高方差、样本效率低、训练震荡和 reward hacking。模型可能学会迎合奖励模型，而不是生成真正更好的答案。

Reward Model 负责偏好信号而不是示范行为

Reward Model 通常学习“哪个回答更好”的排序偏好，它能给候选回答打分，但不等价于高质量示范数据。它告诉模型朝哪个方向优化，却不负责完整地教格式、步骤、拒答和领域表达。没有 SFT 行为基线，reward 信号很难把模型稳定带到好对话分布。

PPO 和 DPO 都需要稳定边界

PPO 通过策略梯度和 KL 约束相对参考模型更新，能直接优化 reward，但实现复杂且容易不稳。DPO 把偏好对转成更直接的优化目标，避开显式在线 RL 流程，但仍依赖好的 SFT 模型和偏好数据。两者都不是跳过 SFT 的理由，而是在 SFT 之后调整偏好。

稳定性约束防止能力退化

后训练必须防止模型为偏好目标牺牲基础能力。常见控制包括 KL/reference 约束、学习率和步数控制、数据混合、拒答和安全红线、能力回归评测、分桶评估、人工抽检和上线灰度。目标是改进对齐行为，同时保持知识、推理、格式和多场景泛化。

易错点

把 SFT、Reward Model、PPO、DPO 都混称为 RL，无法说明各自解决的问题。
认为强化学习更高级，所以可以从基础模型直接训练出聊天能力。
忽略文本生成动作空间巨大、奖励稀疏和高方差，低估直接 RL 的训练难度。
把 Reward Model 当成标准答案生成器，忘记它主要学习偏好排序。
认为 DPO 可以完全替代 SFT，没有说明它依赖已有策略和偏好数据。
只追求偏好分提升，不做 KL 约束、能力回归、安全红线和分桶评估。
没有提 reward hacking、过度拒答、模板化和基础能力退化这些后训练风险。

面试官追问

为什么 Reward Model 数据不能直接当 SFT 数据用？

Reward Model 数据通常是偏好对或排序标签，表达的是 A 比 B 好，不一定每条都是可直接模仿的最佳示范。SFT 需要高质量目标答案来教模型怎么说，偏好数据更适合教模型怎么选。

DPO 是否意味着不需要 RLHF？

DPO 可以不用显式训练 Reward Model 和在线 PPO 流程，但它仍属于基于偏好数据的后训练方法。它通常仍需要一个 SFT 后的参考模型和高质量偏好对，并不意味着可以跳过 SFT。

直接 RL 最容易出现什么坏行为？

容易出现 reward hacking，例如生成迎合评分器的模板化回答、过度拒答、过度自信、啰嗦堆安全话术，或者牺牲准确性来换取看似更高的偏好分。

KL 约束在 PPO 后训练中起什么作用？

KL 约束限制新策略相对参考模型偏离过大，防止模型为了追求 reward 破坏原有语言能力、知识能力和安全边界。它是稳定训练和保留能力的重要手段。

如何验证偏好优化没有伤害基础能力？

要做回归评测，覆盖知识问答、推理、数学、代码、长文本、拒答、安全、格式遵循和多语言等切片，并比较 SFT 基线、偏好优化后模型和线上反馈。