真实面经题目 · 原创解析

为什么要用RLHF而不用SFT?

RLHF 通常不是用来替代 SFT,而是在 SFT 之后进一步把模型从“会模仿答案”推向“更符合人类偏好和使用场景”。SFT 依赖人工示范数据,让模型学习在给定指令下应该怎么回答;RLHF 通过偏好比较训练奖励模型,再用 PPO 等强化学习方法,或用 DPO 等直接偏好优化方法,让模型针对人类偏好、对齐目标和整体回答质量进行优化。

出现于:阿里巴巴 · 算法

60 秒回答模板

SFT 和 RLHF 解决的问题不同。SFT 主要是监督微调,目标是让模型模仿高质量人工示范,学会指令格式、任务模式和基础回答能力;但它本质上是最大化示范答案的似然,只能告诉模型“这个答案像训练集”,不能充分告诉模型“多个可行答案中哪个更符合人类偏好”。RLHF 一般放在 SFT 之后使用,先用人类对候选回答的偏好排序训练奖励模型,再通过 PPO 等方法优化策略模型,使输出更有帮助、更诚实、更安全,也更符合真实用户偏好。偏好比较往往比人工写完整答案更容易采集,也能覆盖语气、拒答边界、事实谨慎性、推理过程质量等难以用单一标准答案表达的目标。需要补充的是,RLHF 不是完美方案,也不是 SFT 的替代品:奖励模型可能被模型钻空子,强化学习可能导致训练不稳定,所以通常会加入 KL 约束,限制模型不要偏离 SFT 模型太远;现在也有 DPO 这类更简化的偏好优化方法,直接用偏好数据优化模型。总结一句话:SFT 让模型先学会“怎么答”,RLHF 让模型进一步学会“答得更符合人类偏好”。

考点 优化目标不同
主线 为什么 SFT 不够
易错点 把 RLHF 说成完全替代 SFT。更准确的说法是二者…

深入解析

01

优化目标不同

SFT 的目标是模仿示范答案,本质上是在给定输入时最大化人工标注输出的概率。它非常适合让模型学会指令跟随、问答格式、任务范式和基础能力迁移。但 SFT 并不直接建模“偏好”,也不擅长表达一个答案比另一个答案好在哪里。RLHF 关注的是人类对多个候选回答的比较和排序,它优化的不是单个标准答案的复现,而是让模型更倾向于产生人类认为更有帮助、更稳健、更安全的回答。

02

为什么 SFT 不够

很多开放式问题没有唯一标准答案。两个回答可能都正确,但一个更简洁,一个更完整;一个更符合用户意图,一个只是泛泛而谈;一个承认不确定性,一个编造细节。SFT 只能学习训练集中被写出来的示范,很难把这些细粒度偏好完整编码进去。尤其在大模型场景中,用户关心的不只是答案是否像训练数据,还包括是否有用、是否诚实、是否安全、是否符合上下文边界。

03

用偏好训练奖励信号

典型 RLHF 流程是在 SFT 模型基础上生成多个候选回答,让人类标注者比较哪个更好,或者给出排序。然后用这些偏好数据训练奖励模型,让奖励模型学会预测人类更喜欢哪个回答。接着再用强化学习方法优化语言模型,使模型生成的回答能获得更高奖励。这里的关键不是让模型死记硬背某个参考答案,而是把人类偏好转化为可优化的训练信号。

04

先会答,再对齐偏好

RLHF 通常建立在一个已经经过 SFT 的模型之上,因为强化学习需要一个相对稳定、可用的初始策略。如果模型还不会基本指令跟随,直接做偏好优化会很低效,也容易出现混乱输出。SFT 先提供基础能力和回答格式,RLHF 再在这个基础上调整输出分布,把模型从“能生成合理答案”推向“更偏向人类喜欢的合理答案”。

05

比较答案更适合开放任务

在很多复杂任务中,让标注者从两个回答中选更好的一个,通常比要求标注者从零写出完美答案更省力。偏好比较还能利用模型自己生成的大量候选回答,让人类只判断质量差异。这样可以更高效地收集关于回答风格、完整性、拒答边界、安全性和事实谨慎性的训练信号。SFT 需要高质量示范,RLHF 则能从相对轻量的比较数据中提取偏好信息。

06

PPO、DPO 与偏好优化

传统 RLHF 常见做法是训练奖励模型后,用 PPO 优化策略模型,并通过 KL 约束限制新模型不要偏离原来的 SFT 模型太多,以避免语言能力退化或输出风格失控。后来也出现了 DPO 等方法,试图绕过显式奖励模型和复杂强化学习过程,直接用偏好对优化模型。更准确的说法是:RLHF 代表用人类偏好驱动模型对齐,PPO 是其中一种经典优化方式,DPO 是更直接的偏好优化路线。

07

RLHF 也有风险

RLHF 并不天然保证模型真实可靠。奖励模型只是人类偏好的近似,可能学到表面特征,比如回答更长、更自信、更迎合用户就给高分。模型在优化奖励时也可能出现 reward hacking,也就是找到让奖励模型打高分但实际质量不高的输出方式。强化学习阶段还可能导致训练不稳定、成本较高、输出多样性下降。因此实际系统需要 KL 约束、人工评测、红队测试和持续数据迭代。

易错点

  • 把 RLHF 说成完全替代 SFT。更准确的说法是二者解决不同阶段的问题,实际通常是 SFT 之后再做偏好优化。
  • 只说 RLHF 能提升效果,却不解释为什么 SFT 不够。需要点出 SFT 只能模仿示范,不能直接优化人类偏好排序。
  • 把奖励模型理解成标准答案打分器。奖励模型更准确地说是偏好预测器,它学习的是人类对候选回答的相对偏好。
  • 忽略 RLHF 的风险。高质量回答应提到 reward hacking、奖励模型偏差、训练不稳定以及 KL 约束的必要性。
  • 把 PPO 和 RLHF 画等号。PPO 只是经典 RLHF 流程中的一种策略优化方法,DPO 等方法也可以利用偏好数据做对齐优化。
  • 认为偏好比较一定比 SFT 更便宜。比较数据通常更容易采集,但仍然需要标注规范、质量控制和覆盖安全边界,成本不能简单忽略。

面试官追问

为什么不能只用更多 SFT 数据解决对齐问题?

更多 SFT 数据确实能提升基础能力,但它仍然是在模仿示范答案。对齐问题很多时候不是缺少一个标准答案,而是需要判断多个答案之间的相对优劣。偏好、语气、安全边界和事实谨慎性很难完全靠单条示范覆盖,所以需要 RLHF 这类偏好优化方法。

RLHF 中的奖励模型具体学什么?

奖励模型学习预测人类更偏好的回答。训练时通常给它同一个问题下的多个候选回答,以及人类偏好排序或二选一结果。它输出一个奖励分数,用来近似人类对回答质量的判断。后续策略模型会被优化到更容易生成高奖励回答。

PPO 在 RLHF 里起什么作用?

PPO 是一种策略优化算法,用来根据奖励模型给出的分数更新语言模型,使模型更倾向于生成高奖励回答。实际使用时通常会加 KL 约束,防止模型为了追求奖励而偏离原始 SFT 模型太远,导致语言质量下降或行为异常。

DPO 和 RLHF 是什么关系?

DPO 可以理解为一种更直接的偏好优化方法。它不一定需要显式训练奖励模型再跑复杂强化学习,而是直接利用偏好样本更新模型,让被偏好的回答概率相对更高。它和 RLHF 关注的问题相同,都是利用人类偏好优化模型,只是训练形式更简化。

RLHF 会不会让模型变得更会迎合用户?

有这个风险。如果偏好数据或奖励模型过度奖励礼貌、自信、长篇回答,模型可能学会迎合式表达,甚至在不确定时也给出看似肯定的答案。因此需要高质量偏好标注、安全数据、事实性评测和拒答边界设计,不能只看奖励分数。