60 秒回答模板

我会先说结论:能被明确验证的目标优先用规则 reward,难以写成确定规则但有人类偏好的目标才考虑 reward model,复杂任务通常用混合 reward。规则 reward 适合答案可自动判定的场景,比如数学最终答案、代码单测、格式合规、工具调用成功、约束是否满足、检索证据是否包含关键字段。它的优点是稳定、便宜、可解释,缺点是覆盖有限,容易被模型钻规则空子。奖励模型适合开放式回答质量,例如有帮助性、事实性、表达清晰、推理过程、偏好风格、安全边界等,这些目标很难用几条规则完整表达,需要用偏好比较或标注数据训练模型来打分。它的优点是覆盖更宽、能表达软偏好,缺点是训练成本高、标注偏差明显、分布外不稳,也会被 reward hacking。实际后训练会把硬约束做成规则底线,把主观质量交给 reward model 或人评,并通过归一化、权重、分层评测和 badcase 审计防止某个 reward 绑架整体目标。

考点 可验证优先规则
难度 真实面经题
回答目标 讲清机制、训练与评估取舍

深入解析

01

先按目标可验证性切分

选规则还是奖励模型,第一判断不是哪个更先进,而是任务目标能不能被可靠自动验证。如果答案对错、格式、工具执行结果或安全约束可以确定判定,规则 reward 往往更合适;如果目标是开放式质量或偏好排序,就需要奖励模型或人类评审近似。

02

规则 reward 适合硬约束

规则 reward 适合可执行、可检查、边界明确的目标。例子包括代码是否通过单测、数学答案是否等价、JSON 是否符合 schema、工具调用参数是否合法、引用是否来自检索证据、Agent 是否完成指定步骤。它的优点是低成本、稳定和易排查。

03

规则 reward 的问题是覆盖窄

规则只能奖励它看得见的指标。模型可能输出满足格式但内容空洞的答案,代码可能只过公开测试,Agent 可能为了成功标志跳过真实用户价值。规则越简单,越容易被策略投机;规则越复杂,维护成本和误伤也会上升。

04

奖励模型适合软偏好

奖励模型可以学习人类对两个回答的偏好,覆盖帮助性、完整性、事实性、语气、推理质量和安全边界等软目标。它适合开放问答、摘要、对话助手、多轮任务和无法穷举规则的复杂场景,但它本质仍是代理目标。

05

奖励模型也会失真

奖励模型依赖标注数据、偏好定义和训练分布。标注者偏好不一致、训练样本覆盖不足、长度偏置、风格偏置或分布外任务都会让 reward 失真。策略模型还可能学会让奖励模型高分的表面模式,而不是真正提升用户价值。

06

工程上通常混合使用

更稳的方案是规则做不可破的硬约束和可验证子目标,奖励模型负责主观质量排序,再用人评、holdout verifier、分任务指标和线上反馈校准。还要控制 reward 权重和尺度,否则一个容易刷分的信号会压过其他目标。

易错点

  • 认为规则 reward 低级、奖励模型高级,忽略可验证任务用规则更稳定。
  • 把 reward model 当成真实用户价值本身,不承认它也是代理目标。
  • 只讲奖励模型训练,不讲规则 reward 的硬约束价值。
  • 没有讨论 reward hacking,导致方案缺少质量护栏。
  • 把多个 reward 简单相加,不做尺度归一化、权重消融和分层评测。
  • 用主观规则硬判开放质量,导致模型学到机械模板而不是真正变好。

面试官追问

数学推理题适合规则 reward 还是奖励模型?

最终答案可验证时适合规则 reward 或 verifier,但推理过程质量、解释清晰度和多步鲁棒性可能还需要过程评估、奖励模型或人评补充。

开放式写作能不能只用规则 reward?

很难。字数、格式、敏感词等规则只能覆盖表层约束,写作质量、逻辑、事实性和风格偏好通常需要奖励模型或人工偏好数据。

混合 reward 的权重怎么定?

先把硬约束设为门槛或强惩罚,再对软目标做尺度归一化和消融实验。最终按 held-out、人评和业务指标调权,而不是凭主观拍一个比例。

如何发现 reward 被投机?

看训练 reward 和独立人评是否背离,检查长度、模板化、重复、规则边界样本、分布外任务和失败案例,并用 holdout verifier 或人工审计复核。