真实面经题目 · 原创解析

为什么需要 Reward model?

Reward model 的价值在于把人类偏好或业务偏好转成可优化的奖励信号,用来指导模型从会生成变成更符合偏好的生成。回答要说明它解决的是监督微调之后的偏好对齐问题。

出现于:美团 · 算法

60 秒回答模板

需要 Reward model,是因为大模型经过预训练和 SFT 后虽然能模仿参考答案,但它不知道多个可行回答里哪个更符合人类偏好、业务目标或安全要求。Reward model 用人工偏好数据训练,学习对候选回答打分或排序,之后可以用于 PPO、rejection sampling、rerank 或评估,让策略模型朝更有帮助、更真实、更安全、更符合指令的方向优化。它本质上是把难以直接写规则的人类偏好变成模型可用的优化信号。

考点 解决偏好对齐
难度 真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

SFT 只能模仿

监督微调让模型学习示范答案的分布,但同一个问题可能有多个回答都像训练数据。SFT 不擅长表达偏好强弱,也难以覆盖所有真实交互中的质量标准。

02

偏好难写规则

人类偏好包含有用性、真实性、完整性、简洁性、安全性、礼貌程度和业务约束,很难用固定规则或单一指标描述。Reward model 通过偏好标注学习这些隐含标准。

03

提供优化目标

有了 Reward model,就能对模型生成的候选回答打分或排序,为 PPO、拒绝采样、Best-of-N、rerank 和离线评估提供可优化信号。

04

降低人工成本

每次策略模型更新都靠人工逐条评估成本很高。Reward model 可以把一部分人工偏好泛化到大量候选上,但仍需要人工抽检和迭代校准。

05

支持业务对齐

在业务场景里,偏好不只是通用聊天质量,还可能包括客服成功率、风险合规、品牌语气、推荐解释和用户满意度。Reward model 能把这些偏好纳入训练闭环。

易错点

  • 不要说 Reward model 是让模型有奖励就行,要说清它学习的是偏好排序或评分。
  • 不要把 Reward model 和策略模型混为一谈,一个打分,一个生成。
  • 不要忽略 SFT 后仍需要偏好对齐的原因。
  • 不要把 reward 分数当成真实质量本身,它只是代理目标。

面试官追问

Reward model 和 SFT 的区别是什么?

SFT 用示范答案做监督学习,让模型学会怎么答;Reward model 用偏好比较学习评分或排序,让模型知道哪种回答更好。

没有 Reward model 能不能做对齐?

可以用 DPO 等直接偏好优化方法,或靠规则和人工评测,但 Reward model 仍是常见的可复用偏好评估器。

Reward model 有什么风险?

它可能学习到长度、格式、模板等伪偏好,被策略模型利用后出现 reward hacking,所以需要难例、校准和人工复核。