为什么需要 Reward model？｜美团算法面经解析

60 秒回答模板

需要 Reward model，是因为大模型经过预训练和 SFT 后虽然能模仿参考答案，但它不知道多个可行回答里哪个更符合人类偏好、业务目标或安全要求。Reward model 用人工偏好数据训练，学习对候选回答打分或排序，之后可以用于 PPO、rejection sampling、rerank 或评估，让策略模型朝更有帮助、更真实、更安全、更符合指令的方向优化。它本质上是把难以直接写规则的人类偏好变成模型可用的优化信号。

考点 解决偏好对齐

难度 真实面经题

回答目标 讲清方法、取舍和追问

深入解析

SFT 只能模仿

监督微调让模型学习示范答案的分布，但同一个问题可能有多个回答都像训练数据。SFT 不擅长表达偏好强弱，也难以覆盖所有真实交互中的质量标准。

偏好难写规则

人类偏好包含有用性、真实性、完整性、简洁性、安全性、礼貌程度和业务约束，很难用固定规则或单一指标描述。Reward model 通过偏好标注学习这些隐含标准。

提供优化目标

有了 Reward model，就能对模型生成的候选回答打分或排序，为 PPO、拒绝采样、Best-of-N、rerank 和离线评估提供可优化信号。

降低人工成本

每次策略模型更新都靠人工逐条评估成本很高。Reward model 可以把一部分人工偏好泛化到大量候选上，但仍需要人工抽检和迭代校准。

支持业务对齐

在业务场景里，偏好不只是通用聊天质量，还可能包括客服成功率、风险合规、品牌语气、推荐解释和用户满意度。Reward model 能把这些偏好纳入训练闭环。

易错点

不要说 Reward model 是让模型有奖励就行，要说清它学习的是偏好排序或评分。
不要把 Reward model 和策略模型混为一谈，一个打分，一个生成。
不要忽略 SFT 后仍需要偏好对齐的原因。
不要把 reward 分数当成真实质量本身，它只是代理目标。

面试官追问

Reward model 和 SFT 的区别是什么？

SFT 用示范答案做监督学习，让模型学会怎么答；Reward model 用偏好比较学习评分或排序，让模型知道哪种回答更好。

没有 Reward model 能不能做对齐？

可以用 DPO 等直接偏好优化方法，或靠规则和人工评测，但 Reward model 仍是常见的可复用偏好评估器。

Reward model 有什么风险？

它可能学习到长度、格式、模板等伪偏好，被策略模型利用后出现 reward hacking，所以需要难例、校准和人工复核。