真实面经题目 · 原创解析
为什么需要 Reward model?
Reward model 的价值在于把人类偏好或业务偏好转成可优化的奖励信号,用来指导模型从会生成变成更符合偏好的生成。回答要说明它解决的是监督微调之后的偏好对齐问题。
真实面经题目 · 原创解析
Reward model 的价值在于把人类偏好或业务偏好转成可优化的奖励信号,用来指导模型从会生成变成更符合偏好的生成。回答要说明它解决的是监督微调之后的偏好对齐问题。
需要 Reward model,是因为大模型经过预训练和 SFT 后虽然能模仿参考答案,但它不知道多个可行回答里哪个更符合人类偏好、业务目标或安全要求。Reward model 用人工偏好数据训练,学习对候选回答打分或排序,之后可以用于 PPO、rejection sampling、rerank 或评估,让策略模型朝更有帮助、更真实、更安全、更符合指令的方向优化。它本质上是把难以直接写规则的人类偏好变成模型可用的优化信号。
监督微调让模型学习示范答案的分布,但同一个问题可能有多个回答都像训练数据。SFT 不擅长表达偏好强弱,也难以覆盖所有真实交互中的质量标准。
人类偏好包含有用性、真实性、完整性、简洁性、安全性、礼貌程度和业务约束,很难用固定规则或单一指标描述。Reward model 通过偏好标注学习这些隐含标准。
有了 Reward model,就能对模型生成的候选回答打分或排序,为 PPO、拒绝采样、Best-of-N、rerank 和离线评估提供可优化信号。
每次策略模型更新都靠人工逐条评估成本很高。Reward model 可以把一部分人工偏好泛化到大量候选上,但仍需要人工抽检和迭代校准。
在业务场景里,偏好不只是通用聊天质量,还可能包括客服成功率、风险合规、品牌语气、推荐解释和用户满意度。Reward model 能把这些偏好纳入训练闭环。
SFT 用示范答案做监督学习,让模型学会怎么答;Reward model 用偏好比较学习评分或排序,让模型知道哪种回答更好。
可以用 DPO 等直接偏好优化方法,或靠规则和人工评测,但 Reward model 仍是常见的可复用偏好评估器。
它可能学习到长度、格式、模板等伪偏好,被策略模型利用后出现 reward hacking,所以需要难例、校准和人工复核。