Reward model如何训练？｜高频面试题解析

60 秒回答模板

Reward model 通常先收集 prompt 和多个候选回答，再让人工或高质量评审给出偏好，形成 chosen 和 rejected。训练时模型输入 prompt+response，输出一个标量 reward，用 pairwise loss 让 chosen 的分数高于 rejected。训练后要在人工偏好集上验证一致性，并检查长度偏置、格式偏置、安全偏置和分布外输入，不能只看训练 loss。

考点 偏好数据

难度 算法岗真实面经题

回答目标 讲清方法、取舍和追问

深入解析

数据来源

Reward model 需要覆盖真实用户问题和模型可能生成的不同质量回答。候选回答可以来自多个 checkpoint、不同采样参数、人工答案或线上日志。关键是让样本包含正确、错误、啰嗦、幻觉、拒答和安全边界等多种质量差异。

偏好标注

标注通常不是给绝对分，而是在同一 prompt 下比较两个或多个回答。标注标准要明确，包括事实正确性、指令遵循、完整性、帮助性、安全性和表达质量。多标注者一致性越高，训练信号越可靠。

训练目标

常见 reward model 输出一个标量分数。pairwise ranking loss 会鼓励 chosen response 的 reward 高于 rejected response。这个目标学习的是相对偏好，不是直接生成答案，因此 reward model 后续常用于 RLHF、重排或数据筛选。

偏差控制

Reward model 容易学习捷径，例如答案越长分越高、格式越像模板分越高、某类拒答被过度奖励。训练时要控制长度、来源、主题、难度和安全场景分布，并用对抗样本检查模型是否真的理解质量差异。

评估与上线

评估要看与人工偏好的一致率、pairwise accuracy、分桶表现、校准情况和分布外稳定性。上线后如果 reward model 被策略模型利用漏洞，就可能出现 reward hacking，因此需要持续抽检和更新标注集。

易错点

把 Reward model 说成生成答案的模型，而不是偏好评分模型。
只说训练 pair，不说明标注标准和偏差控制。
把训练 loss 降低等同于偏好评估可靠。
忽略 reward hacking 和上线后的持续抽检。

面试官追问

Reward model 和 SFT 模型有什么区别？

SFT 模型学习生成回答，Reward model 学习给回答打偏好分。前者输出 token 序列，后者通常输出标量 reward，用于后续策略优化或重排。

为什么不用人工规则直接当 reward？

规则能覆盖明确约束，但很难表达开放回答的综合质量。Reward model 可以从大量偏好标注中学习更细粒度的质量判断，但仍需要规则和人工抽检兜底。

如何发现 reward hacking？

可以观察模型是否生成异常冗长、模板化或迎合 reward 的回答，用人工评审、对抗样本和线上反馈检查高 reward 输出是否真的高质量。