大模型强化学习中 Reward 什么时候用规则，什么时候用奖励模型？｜字节跳动算法面经解析

60 秒回答模板

我会先说结论：能被明确验证的目标优先用规则 reward，难以写成确定规则但有人类偏好的目标才考虑 reward model，复杂任务通常用混合 reward。规则 reward 适合答案可自动判定的场景，比如数学最终答案、代码单测、格式合规、工具调用成功、约束是否满足、检索证据是否包含关键字段。它的优点是稳定、便宜、可解释，缺点是覆盖有限，容易被模型钻规则空子。奖励模型适合开放式回答质量，例如有帮助性、事实性、表达清晰、推理过程、偏好风格、安全边界等，这些目标很难用几条规则完整表达，需要用偏好比较或标注数据训练模型来打分。它的优点是覆盖更宽、能表达软偏好，缺点是训练成本高、标注偏差明显、分布外不稳，也会被 reward hacking。实际后训练会把硬约束做成规则底线，把主观质量交给 reward model 或人评，并通过归一化、权重、分层评测和 badcase 审计防止某个 reward 绑架整体目标。

考点 可验证优先规则

难度 真实面经题

回答目标 讲清机制、训练与评估取舍

深入解析

先按目标可验证性切分

选规则还是奖励模型，第一判断不是哪个更先进，而是任务目标能不能被可靠自动验证。如果答案对错、格式、工具执行结果或安全约束可以确定判定，规则 reward 往往更合适；如果目标是开放式质量或偏好排序，就需要奖励模型或人类评审近似。

规则 reward 适合硬约束

规则 reward 适合可执行、可检查、边界明确的目标。例子包括代码是否通过单测、数学答案是否等价、JSON 是否符合 schema、工具调用参数是否合法、引用是否来自检索证据、Agent 是否完成指定步骤。它的优点是低成本、稳定和易排查。

规则 reward 的问题是覆盖窄

规则只能奖励它看得见的指标。模型可能输出满足格式但内容空洞的答案，代码可能只过公开测试，Agent 可能为了成功标志跳过真实用户价值。规则越简单，越容易被策略投机；规则越复杂，维护成本和误伤也会上升。

奖励模型适合软偏好

奖励模型可以学习人类对两个回答的偏好，覆盖帮助性、完整性、事实性、语气、推理质量和安全边界等软目标。它适合开放问答、摘要、对话助手、多轮任务和无法穷举规则的复杂场景，但它本质仍是代理目标。

奖励模型也会失真

奖励模型依赖标注数据、偏好定义和训练分布。标注者偏好不一致、训练样本覆盖不足、长度偏置、风格偏置或分布外任务都会让 reward 失真。策略模型还可能学会让奖励模型高分的表面模式，而不是真正提升用户价值。

工程上通常混合使用

更稳的方案是规则做不可破的硬约束和可验证子目标，奖励模型负责主观质量排序，再用人评、holdout verifier、分任务指标和线上反馈校准。还要控制 reward 权重和尺度，否则一个容易刷分的信号会压过其他目标。

易错点

认为规则 reward 低级、奖励模型高级，忽略可验证任务用规则更稳定。
把 reward model 当成真实用户价值本身，不承认它也是代理目标。
只讲奖励模型训练，不讲规则 reward 的硬约束价值。
没有讨论 reward hacking，导致方案缺少质量护栏。
把多个 reward 简单相加，不做尺度归一化、权重消融和分层评测。
用主观规则硬判开放质量，导致模型学到机械模板而不是真正变好。

面试官追问

数学推理题适合规则 reward 还是奖励模型？

最终答案可验证时适合规则 reward 或 verifier，但推理过程质量、解释清晰度和多步鲁棒性可能还需要过程评估、奖励模型或人评补充。

开放式写作能不能只用规则 reward？

很难。字数、格式、敏感词等规则只能覆盖表层约束，写作质量、逻辑、事实性和风格偏好通常需要奖励模型或人工偏好数据。

混合 reward 的权重怎么定？

先把硬约束设为门槛或强惩罚，再对软目标做尺度归一化和消融实验。最终按 held-out、人评和业务指标调权，而不是凭主观拍一个比例。

如何发现 reward 被投机？

看训练 reward 和独立人评是否背离，检查长度、模板化、重复、规则边界样本、分布外任务和失败案例，并用 holdout verifier 或人工审计复核。