01
60 秒回答模板
这个问题的关键在于区分 SFT、Reward Model 和 RLHF 的目标。SFT 是模仿学习,它需要的是人类写好的高质量回答,让模型学习遇到这个问题应该怎么答。Reward Model 的训练数据通常是人类对多个候选回答的排序、选择或偏好判断,它表达的是哪个更好,而不是直接给出唯一正确答案。所以如果把 Reward Model 的数据直接拿来 fine-tune,会遇到目标不匹配的问题:偏好数据只提供相对比较,不能稳定地告诉模型每个 token 应该如何生成。RLHF 的作用是把 Reward Model 变成一个可优化的反馈信号,让语言模型在生成过程中探索不同回答,并通过 PPO 等强化学习方法提高高奖励回答的概率,同时用 KL 约束防止模型偏离原来的语言能力。换句话说,SFT 解决会不会答、格式和基础能力问题;Reward Model 学会判断什么回答更符合人类偏好;RLHF 或偏好优化则把这种判断反馈到生成策略上,让模型不仅会模仿示范答案,还能在安全性、有用性、诚实性和风格偏好上进一步对齐。现在也有 DPO、IPO 等方法尝试绕开显式强化学习,但它们本质上仍然是在优化偏好目标,而不是简单把 Reward Model 的数据当普通监督数据来做 fine-tune。
考点 SFT 学的是示范答案
主线 Reward Model 学的是偏好函数
易错点 把 Reward Model 理解成生成答案的模型,而…
02
深入解析
01 SFT 学的是示范答案
SFT,也就是监督微调,使用的是输入和目标输出的配对数据。例如用户问一个问题,人类写出一个理想回答,模型通过最大化这个回答中每个 token 的概率来学习。这种训练非常适合教模型基本指令跟随、回答格式、领域知识表达和对话风格。它的前提是目标答案本身足够好,并且可以作为模型直接模仿的对象。
02 Reward Model 学的是偏好函数
Reward Model 的训练数据通常不是单个标准答案,而是同一问题下多个候选回答之间的偏好关系,比如 A 比 B 更好,或者对回答进行排序。Reward Model 学到的是一个打分函数:给定 prompt 和 response,预测这个 response 符不符合人类偏好。它不是生成模型,而是评价模型;它输出的奖励分数可以指导优化,但不能直接替代应该生成什么的监督标签。
03 偏好数据不等于监督标签
如果直接用 Reward Model 的偏好数据做 fine-tune,会面临一个根本问题:偏好数据告诉两个回答谁更好,但不告诉模型逐 token 应该生成哪一个答案。即使某个回答被选为更优,它也可能只是相对更好,并不一定是绝对高质量答案。把它当作 SFT 标签会把有缺陷但胜出的回答也强行灌给模型,容易引入噪声。偏好数据更适合表达排序约束,而不是像标准答案那样做逐词模仿。
04 RLHF 优化的是策略行为
语言模型生成回答时,本质上是在大量可能回答中选择一个序列。RLHF 将 Reward Model 作为反馈信号,评估模型生成的回答是否更符合人类偏好,然后通过 PPO 等方法更新模型策略,使高奖励回答出现的概率变大。这个过程不是简单复制某条答案,而是在模型自己的生成分布上进行优化。它能处理开放式问题中没有唯一标准答案、但有更好和更差回答的情况。
05 PPO 需要防止奖励过度优化
在 RLHF 中,如果只追求 Reward Model 的高分,模型可能学会钻奖励模型的空子,生成表面上高分但实际质量下降的回答。因此 PPO 通常会加入 KL 约束,让新模型不要离原始 SFT 模型太远。这个约束很重要,因为基础语言能力、流畅性和常识能力主要来自预训练与 SFT,强化学习只是对偏好进行微调,而不是重新学习语言。
06 目标差异决定方法差异
SFT 的目标是最大化人类示范答案的似然,适合模仿正确做法。Reward Model 的目标是拟合人类偏好,适合判断哪个回答更好。RLHF 的目标是最大化期望奖励,适合让模型自己的输出更受偏好函数欢迎。这三者不是重复步骤,而是分工不同:先让模型能回答,再让评价器能判断,最后用评价器优化模型行为。
07 偏好优化是替代路线
后来出现的 DPO、IPO、KTO 等方法,尝试不显式训练强化学习循环,直接用偏好对优化模型。这些方法常被称为偏好优化,它们在工程上可能更稳定、更简单,但核心思想仍然不是普通 SFT。它们仍然利用 chosen 比 rejected 更好的相对偏好信号,优化模型对优质回答和劣质回答的概率差。也就是说,即使不用 PPO,也不是把 Reward Model 数据直接当标准答案模仿。
03
易错点
- 把 Reward Model 理解成生成答案的模型,而不是评价回答的模型。
- 认为偏好数据里的 chosen 回答就是完美标准答案,可以直接当 SFT 标签。
- 只说 RLHF 效果更好,却没有解释 SFT 和 RLHF 的目标函数差异。
- 忽略 rejected 回答的价值;偏好学习的重要信息来自 chosen 与 rejected 的对比。
- 把 PPO 说成单纯提高分数,忘记 KL 约束对保持语言能力和防止奖励投机很关键。
- 认为 DPO 等方法等同于普通监督微调,而没有说明它们仍然是偏好优化。
- 把 RLHF 描述成重新训练模型知识,实际上它主要是在已有能力上调整行为偏好。
04
面试官追问
如果把偏好数据里胜出的回答当作 SFT 数据,会怎样?
可以做,但效果通常不理想,尤其是高质量对齐阶段。因为胜出的回答只是相对更好,不一定是理想答案;直接模仿会丢失 rejected 回答提供的负面信息,也无法表达好多少的差异。更合理的做法是利用成对偏好关系,让模型学会拉开好回答和差回答的概率。
为什么需要 Reward Model,不能人类直接给模型反馈?
人类直接参与每一步模型更新成本太高,而且训练需要大量样本和反复迭代。Reward Model 相当于把人类偏好压缩成一个可自动调用的评价函数,让模型可以在大量生成样本上获得反馈。它不是完美替代人类,而是把有限的人类标注扩展成可规模化优化信号。
PPO 在这里到底优化什么?
PPO 优化的是语言模型这个策略,使它生成的回答在 Reward Model 下获得更高奖励。具体来说,模型先生成回答,Reward Model 打分,然后 PPO 根据奖励调整模型参数,让类似高分回答的概率上升。同时会加入 KL 惩罚,避免模型为了高分偏离原有语言分布太远。
RLHF 相比 SFT 最大的价值是什么?
SFT 擅长让模型学会基本回答方式,但它很难处理复杂偏好,比如更有帮助、更诚实、更安全、更符合语气要求。RLHF 可以把这些难以写成唯一标准答案的偏好转成优化信号。它补足的是人类更喜欢哪种行为这一层,而不仅是应该模仿哪条答案。
DPO 出现后,RLHF/PPO 还重要吗?
DPO 让偏好优化更简单,很多场景下可以替代 PPO 式 RLHF,但它没有改变问题本质。核心仍然是利用 chosen/rejected 的偏好关系优化模型,而不是把 Reward Model 数据直接做 SFT。PPO 更像经典强化学习路线,DPO 更像把偏好优化转化为一个更稳定的监督式目标。
Reward Model 会不会被模型利用漏洞?
会,这就是 reward hacking 风险。模型可能生成迎合打分器模式的回答,而不是真正高质量的回答。因此实际训练中会使用 KL 约束、人工评估、数据迭代和安全过滤等方法,避免模型过度优化一个不完美的奖励函数。