60 秒回答模板

Reward model 通常先收集 prompt 和多个候选回答,再让人工或高质量评审给出偏好,形成 chosen 和 rejected。训练时模型输入 prompt+response,输出一个标量 reward,用 pairwise loss 让 chosen 的分数高于 rejected。训练后要在人工偏好集上验证一致性,并检查长度偏置、格式偏置、安全偏置和分布外输入,不能只看训练 loss。

考点 偏好数据
难度 算法岗真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

数据来源

Reward model 需要覆盖真实用户问题和模型可能生成的不同质量回答。候选回答可以来自多个 checkpoint、不同采样参数、人工答案或线上日志。关键是让样本包含正确、错误、啰嗦、幻觉、拒答和安全边界等多种质量差异。

02

偏好标注

标注通常不是给绝对分,而是在同一 prompt 下比较两个或多个回答。标注标准要明确,包括事实正确性、指令遵循、完整性、帮助性、安全性和表达质量。多标注者一致性越高,训练信号越可靠。

03

训练目标

常见 reward model 输出一个标量分数。pairwise ranking loss 会鼓励 chosen response 的 reward 高于 rejected response。这个目标学习的是相对偏好,不是直接生成答案,因此 reward model 后续常用于 RLHF、重排或数据筛选。

04

偏差控制

Reward model 容易学习捷径,例如答案越长分越高、格式越像模板分越高、某类拒答被过度奖励。训练时要控制长度、来源、主题、难度和安全场景分布,并用对抗样本检查模型是否真的理解质量差异。

05

评估与上线

评估要看与人工偏好的一致率、pairwise accuracy、分桶表现、校准情况和分布外稳定性。上线后如果 reward model 被策略模型利用漏洞,就可能出现 reward hacking,因此需要持续抽检和更新标注集。

易错点

  • 把 Reward model 说成生成答案的模型,而不是偏好评分模型。
  • 只说训练 pair,不说明标注标准和偏差控制。
  • 把训练 loss 降低等同于偏好评估可靠。
  • 忽略 reward hacking 和上线后的持续抽检。

面试官追问

Reward model 和 SFT 模型有什么区别?

SFT 模型学习生成回答,Reward model 学习给回答打偏好分。前者输出 token 序列,后者通常输出标量 reward,用于后续策略优化或重排。

为什么不用人工规则直接当 reward?

规则能覆盖明确约束,但很难表达开放回答的综合质量。Reward model 可以从大量偏好标注中学习更细粒度的质量判断,但仍需要规则和人工抽检兜底。

如何发现 reward hacking?

可以观察模型是否生成异常冗长、模板化或迎合 reward 的回答,用人工评审、对抗样本和线上反馈检查高 reward 输出是否真的高质量。