ChatGPT为什么不用Reward-Model的数据直接fine-tune，而用RL？｜阿里巴巴算法面经解析

60 秒回答模板

这个问题的关键在于区分 SFT、Reward Model 和 RLHF 的目标。SFT 是模仿学习，它需要的是人类写好的高质量回答，让模型学习遇到这个问题应该怎么答。Reward Model 的训练数据通常是人类对多个候选回答的排序、选择或偏好判断，它表达的是哪个更好，而不是直接给出唯一正确答案。所以如果把 Reward Model 的数据直接拿来 fine-tune，会遇到目标不匹配的问题：偏好数据只提供相对比较，不能稳定地告诉模型每个 token 应该如何生成。RLHF 的作用是把 Reward Model 变成一个可优化的反馈信号，让语言模型在生成过程中探索不同回答，并通过 PPO 等强化学习方法提高高奖励回答的概率，同时用 KL 约束防止模型偏离原来的语言能力。换句话说，SFT 解决会不会答、格式和基础能力问题；Reward Model 学会判断什么回答更符合人类偏好；RLHF 或偏好优化则把这种判断反馈到生成策略上，让模型不仅会模仿示范答案，还能在安全性、有用性、诚实性和风格偏好上进一步对齐。现在也有 DPO、IPO 等方法尝试绕开显式强化学习，但它们本质上仍然是在优化偏好目标，而不是简单把 Reward Model 的数据当普通监督数据来做 fine-tune。

考点 SFT 学的是示范答案

主线 Reward Model 学的是偏好函数

易错点 把 Reward Model 理解成生成答案的模型，而…

深入解析

SFT 学的是示范答案

SFT，也就是监督微调，使用的是输入和目标输出的配对数据。例如用户问一个问题，人类写出一个理想回答，模型通过最大化这个回答中每个 token 的概率来学习。这种训练非常适合教模型基本指令跟随、回答格式、领域知识表达和对话风格。它的前提是目标答案本身足够好，并且可以作为模型直接模仿的对象。

Reward Model 学的是偏好函数

Reward Model 的训练数据通常不是单个标准答案，而是同一问题下多个候选回答之间的偏好关系，比如 A 比 B 更好，或者对回答进行排序。Reward Model 学到的是一个打分函数：给定 prompt 和 response，预测这个 response 符不符合人类偏好。它不是生成模型，而是评价模型；它输出的奖励分数可以指导优化，但不能直接替代应该生成什么的监督标签。

偏好数据不等于监督标签

如果直接用 Reward Model 的偏好数据做 fine-tune，会面临一个根本问题：偏好数据告诉两个回答谁更好，但不告诉模型逐 token 应该生成哪一个答案。即使某个回答被选为更优，它也可能只是相对更好，并不一定是绝对高质量答案。把它当作 SFT 标签会把有缺陷但胜出的回答也强行灌给模型，容易引入噪声。偏好数据更适合表达排序约束，而不是像标准答案那样做逐词模仿。

RLHF 优化的是策略行为

语言模型生成回答时，本质上是在大量可能回答中选择一个序列。RLHF 将 Reward Model 作为反馈信号，评估模型生成的回答是否更符合人类偏好，然后通过 PPO 等方法更新模型策略，使高奖励回答出现的概率变大。这个过程不是简单复制某条答案，而是在模型自己的生成分布上进行优化。它能处理开放式问题中没有唯一标准答案、但有更好和更差回答的情况。

PPO 需要防止奖励过度优化

在 RLHF 中，如果只追求 Reward Model 的高分，模型可能学会钻奖励模型的空子，生成表面上高分但实际质量下降的回答。因此 PPO 通常会加入 KL 约束，让新模型不要离原始 SFT 模型太远。这个约束很重要，因为基础语言能力、流畅性和常识能力主要来自预训练与 SFT，强化学习只是对偏好进行微调，而不是重新学习语言。

目标差异决定方法差异

SFT 的目标是最大化人类示范答案的似然，适合模仿正确做法。Reward Model 的目标是拟合人类偏好，适合判断哪个回答更好。RLHF 的目标是最大化期望奖励，适合让模型自己的输出更受偏好函数欢迎。这三者不是重复步骤，而是分工不同：先让模型能回答，再让评价器能判断，最后用评价器优化模型行为。

偏好优化是替代路线

后来出现的 DPO、IPO、KTO 等方法，尝试不显式训练强化学习循环，直接用偏好对优化模型。这些方法常被称为偏好优化，它们在工程上可能更稳定、更简单，但核心思想仍然不是普通 SFT。它们仍然利用 chosen 比 rejected 更好的相对偏好信号，优化模型对优质回答和劣质回答的概率差。也就是说，即使不用 PPO，也不是把 Reward Model 数据直接当标准答案模仿。

易错点

把 Reward Model 理解成生成答案的模型，而不是评价回答的模型。
认为偏好数据里的 chosen 回答就是完美标准答案，可以直接当 SFT 标签。
只说 RLHF 效果更好，却没有解释 SFT 和 RLHF 的目标函数差异。
忽略 rejected 回答的价值；偏好学习的重要信息来自 chosen 与 rejected 的对比。
把 PPO 说成单纯提高分数，忘记 KL 约束对保持语言能力和防止奖励投机很关键。
认为 DPO 等方法等同于普通监督微调，而没有说明它们仍然是偏好优化。
把 RLHF 描述成重新训练模型知识，实际上它主要是在已有能力上调整行为偏好。

面试官追问

如果把偏好数据里胜出的回答当作 SFT 数据，会怎样？

可以做，但效果通常不理想，尤其是高质量对齐阶段。因为胜出的回答只是相对更好，不一定是理想答案；直接模仿会丢失 rejected 回答提供的负面信息，也无法表达好多少的差异。更合理的做法是利用成对偏好关系，让模型学会拉开好回答和差回答的概率。

为什么需要 Reward Model，不能人类直接给模型反馈？

人类直接参与每一步模型更新成本太高，而且训练需要大量样本和反复迭代。Reward Model 相当于把人类偏好压缩成一个可自动调用的评价函数，让模型可以在大量生成样本上获得反馈。它不是完美替代人类，而是把有限的人类标注扩展成可规模化优化信号。

PPO 在这里到底优化什么？

PPO 优化的是语言模型这个策略，使它生成的回答在 Reward Model 下获得更高奖励。具体来说，模型先生成回答，Reward Model 打分，然后 PPO 根据奖励调整模型参数，让类似高分回答的概率上升。同时会加入 KL 惩罚，避免模型为了高分偏离原有语言分布太远。

RLHF 相比 SFT 最大的价值是什么？

SFT 擅长让模型学会基本回答方式，但它很难处理复杂偏好，比如更有帮助、更诚实、更安全、更符合语气要求。RLHF 可以把这些难以写成唯一标准答案的偏好转成优化信号。它补足的是人类更喜欢哪种行为这一层，而不仅是应该模仿哪条答案。

DPO 出现后，RLHF/PPO 还重要吗？

DPO 让偏好优化更简单，很多场景下可以替代 PPO 式 RLHF，但它没有改变问题本质。核心仍然是利用 chosen/rejected 的偏好关系优化模型，而不是把 Reward Model 数据直接做 SFT。PPO 更像经典强化学习路线，DPO 更像把偏好优化转化为一个更稳定的监督式目标。

Reward Model 会不会被模型利用漏洞？

会，这就是 reward hacking 风险。模型可能生成迎合打分器模式的回答，而不是真正高质量的回答。因此实际训练中会使用 KL 约束、人工评估、数据迭代和安全过滤等方法，避免模型过度优化一个不完美的奖励函数。