为什么要用RLHF而不用SFT？｜阿里巴巴算法面经解析

60 秒回答模板

SFT 和 RLHF 解决的问题不同。SFT 主要是监督微调，目标是让模型模仿高质量人工示范，学会指令格式、任务模式和基础回答能力；但它本质上是最大化示范答案的似然，只能告诉模型“这个答案像训练集”，不能充分告诉模型“多个可行答案中哪个更符合人类偏好”。RLHF 一般放在 SFT 之后使用，先用人类对候选回答的偏好排序训练奖励模型，再通过 PPO 等方法优化策略模型，使输出更有帮助、更诚实、更安全，也更符合真实用户偏好。偏好比较往往比人工写完整答案更容易采集，也能覆盖语气、拒答边界、事实谨慎性、推理过程质量等难以用单一标准答案表达的目标。需要补充的是，RLHF 不是完美方案，也不是 SFT 的替代品：奖励模型可能被模型钻空子，强化学习可能导致训练不稳定，所以通常会加入 KL 约束，限制模型不要偏离 SFT 模型太远；现在也有 DPO 这类更简化的偏好优化方法，直接用偏好数据优化模型。总结一句话：SFT 让模型先学会“怎么答”，RLHF 让模型进一步学会“答得更符合人类偏好”。

考点 优化目标不同

主线 为什么 SFT 不够

易错点 把 RLHF 说成完全替代 SFT。更准确的说法是二者…

深入解析

优化目标不同

SFT 的目标是模仿示范答案，本质上是在给定输入时最大化人工标注输出的概率。它非常适合让模型学会指令跟随、问答格式、任务范式和基础能力迁移。但 SFT 并不直接建模“偏好”，也不擅长表达一个答案比另一个答案好在哪里。RLHF 关注的是人类对多个候选回答的比较和排序，它优化的不是单个标准答案的复现，而是让模型更倾向于产生人类认为更有帮助、更稳健、更安全的回答。

为什么 SFT 不够

很多开放式问题没有唯一标准答案。两个回答可能都正确，但一个更简洁，一个更完整；一个更符合用户意图，一个只是泛泛而谈；一个承认不确定性，一个编造细节。SFT 只能学习训练集中被写出来的示范，很难把这些细粒度偏好完整编码进去。尤其在大模型场景中，用户关心的不只是答案是否像训练数据，还包括是否有用、是否诚实、是否安全、是否符合上下文边界。

用偏好训练奖励信号

典型 RLHF 流程是在 SFT 模型基础上生成多个候选回答，让人类标注者比较哪个更好，或者给出排序。然后用这些偏好数据训练奖励模型，让奖励模型学会预测人类更喜欢哪个回答。接着再用强化学习方法优化语言模型，使模型生成的回答能获得更高奖励。这里的关键不是让模型死记硬背某个参考答案，而是把人类偏好转化为可优化的训练信号。

先会答，再对齐偏好

RLHF 通常建立在一个已经经过 SFT 的模型之上，因为强化学习需要一个相对稳定、可用的初始策略。如果模型还不会基本指令跟随，直接做偏好优化会很低效，也容易出现混乱输出。SFT 先提供基础能力和回答格式，RLHF 再在这个基础上调整输出分布，把模型从“能生成合理答案”推向“更偏向人类喜欢的合理答案”。

比较答案更适合开放任务

在很多复杂任务中，让标注者从两个回答中选更好的一个，通常比要求标注者从零写出完美答案更省力。偏好比较还能利用模型自己生成的大量候选回答，让人类只判断质量差异。这样可以更高效地收集关于回答风格、完整性、拒答边界、安全性和事实谨慎性的训练信号。SFT 需要高质量示范，RLHF 则能从相对轻量的比较数据中提取偏好信息。

PPO、DPO 与偏好优化

传统 RLHF 常见做法是训练奖励模型后，用 PPO 优化策略模型，并通过 KL 约束限制新模型不要偏离原来的 SFT 模型太多，以避免语言能力退化或输出风格失控。后来也出现了 DPO 等方法，试图绕过显式奖励模型和复杂强化学习过程，直接用偏好对优化模型。更准确的说法是：RLHF 代表用人类偏好驱动模型对齐，PPO 是其中一种经典优化方式，DPO 是更直接的偏好优化路线。

RLHF 也有风险

RLHF 并不天然保证模型真实可靠。奖励模型只是人类偏好的近似，可能学到表面特征，比如回答更长、更自信、更迎合用户就给高分。模型在优化奖励时也可能出现 reward hacking，也就是找到让奖励模型打高分但实际质量不高的输出方式。强化学习阶段还可能导致训练不稳定、成本较高、输出多样性下降。因此实际系统需要 KL 约束、人工评测、红队测试和持续数据迭代。

易错点

把 RLHF 说成完全替代 SFT。更准确的说法是二者解决不同阶段的问题，实际通常是 SFT 之后再做偏好优化。
只说 RLHF 能提升效果，却不解释为什么 SFT 不够。需要点出 SFT 只能模仿示范，不能直接优化人类偏好排序。
把奖励模型理解成标准答案打分器。奖励模型更准确地说是偏好预测器，它学习的是人类对候选回答的相对偏好。
忽略 RLHF 的风险。高质量回答应提到 reward hacking、奖励模型偏差、训练不稳定以及 KL 约束的必要性。
把 PPO 和 RLHF 画等号。PPO 只是经典 RLHF 流程中的一种策略优化方法，DPO 等方法也可以利用偏好数据做对齐优化。
认为偏好比较一定比 SFT 更便宜。比较数据通常更容易采集，但仍然需要标注规范、质量控制和覆盖安全边界，成本不能简单忽略。

面试官追问

为什么不能只用更多 SFT 数据解决对齐问题？

更多 SFT 数据确实能提升基础能力，但它仍然是在模仿示范答案。对齐问题很多时候不是缺少一个标准答案，而是需要判断多个答案之间的相对优劣。偏好、语气、安全边界和事实谨慎性很难完全靠单条示范覆盖，所以需要 RLHF 这类偏好优化方法。

RLHF 中的奖励模型具体学什么？

奖励模型学习预测人类更偏好的回答。训练时通常给它同一个问题下的多个候选回答，以及人类偏好排序或二选一结果。它输出一个奖励分数，用来近似人类对回答质量的判断。后续策略模型会被优化到更容易生成高奖励回答。

PPO 在 RLHF 里起什么作用？

PPO 是一种策略优化算法，用来根据奖励模型给出的分数更新语言模型，使模型更倾向于生成高奖励回答。实际使用时通常会加 KL 约束，防止模型为了追求奖励而偏离原始 SFT 模型太远，导致语言质量下降或行为异常。

DPO 和 RLHF 是什么关系？

DPO 可以理解为一种更直接的偏好优化方法。它不一定需要显式训练奖励模型再跑复杂强化学习，而是直接利用偏好样本更新模型，让被偏好的回答概率相对更高。它和 RLHF 关注的问题相同，都是利用人类偏好优化模型，只是训练形式更简化。

RLHF 会不会让模型变得更会迎合用户？

有这个风险。如果偏好数据或奖励模型过度奖励礼貌、自信、长篇回答，模型可能学会迎合式表达，甚至在不确定时也给出看似肯定的答案。因此需要高质量偏好标注、安全数据、事实性评测和拒答边界设计，不能只看奖励分数。