真实面经题目 · 原创解析
Reward model如何训练?
Reward model 训练的核心是把人类偏好转成可学习的评分函数。常见做法是对同一 prompt 的多个回答做偏好标注,构造 chosen/rejected pair,用 pairwise ranking loss 训练模型给更优回答更高分。
Reward model 通常先收集 prompt 和多个候选回答,再让人工或高质量评审给出偏好,形成 chosen 和 rejected。训练时模型输入 prompt+response,输出一个标量 reward,用 pairwise loss 让 chosen 的分数高于 rejected。训练后要在人工偏好集上验证一致性,并检查长度偏置、格式偏置、安全偏置和分布外输入,不能只看训练 loss。
Reward model 需要覆盖真实用户问题和模型可能生成的不同质量回答。候选回答可以来自多个 checkpoint、不同采样参数、人工答案或线上日志。关键是让样本包含正确、错误、啰嗦、幻觉、拒答和安全边界等多种质量差异。
标注通常不是给绝对分,而是在同一 prompt 下比较两个或多个回答。标注标准要明确,包括事实正确性、指令遵循、完整性、帮助性、安全性和表达质量。多标注者一致性越高,训练信号越可靠。
常见 reward model 输出一个标量分数。pairwise ranking loss 会鼓励 chosen response 的 reward 高于 rejected response。这个目标学习的是相对偏好,不是直接生成答案,因此 reward model 后续常用于 RLHF、重排或数据筛选。
Reward model 容易学习捷径,例如答案越长分越高、格式越像模板分越高、某类拒答被过度奖励。训练时要控制长度、来源、主题、难度和安全场景分布,并用对抗样本检查模型是否真的理解质量差异。
评估要看与人工偏好的一致率、pairwise accuracy、分桶表现、校准情况和分布外稳定性。上线后如果 reward model 被策略模型利用漏洞,就可能出现 reward hacking,因此需要持续抽检和更新标注集。
SFT 模型学习生成回答,Reward model 学习给回答打偏好分。前者输出 token 序列,后者通常输出标量 reward,用于后续策略优化或重排。
规则能覆盖明确约束,但很难表达开放回答的综合质量。Reward model 可以从大量偏好标注中学习更细粒度的质量判断,但仍需要规则和人工抽检兜底。
可以观察模型是否生成异常冗长、模板化或迎合 reward 的回答,用人工评审、对抗样本和线上反馈检查高 reward 输出是否真的高质量。