真实面经题目 · 原创解析
大模型强化学习中 Reward 什么时候用规则,什么时候用奖励模型?
这题考大模型 RL 后训练中奖励信号的选型,重点是按可验证性、主观性、成本、覆盖范围和被投机风险决定用规则还是奖励模型。
真实面经题目 · 原创解析
这题考大模型 RL 后训练中奖励信号的选型,重点是按可验证性、主观性、成本、覆盖范围和被投机风险决定用规则还是奖励模型。
我会先说结论:能被明确验证的目标优先用规则 reward,难以写成确定规则但有人类偏好的目标才考虑 reward model,复杂任务通常用混合 reward。规则 reward 适合答案可自动判定的场景,比如数学最终答案、代码单测、格式合规、工具调用成功、约束是否满足、检索证据是否包含关键字段。它的优点是稳定、便宜、可解释,缺点是覆盖有限,容易被模型钻规则空子。奖励模型适合开放式回答质量,例如有帮助性、事实性、表达清晰、推理过程、偏好风格、安全边界等,这些目标很难用几条规则完整表达,需要用偏好比较或标注数据训练模型来打分。它的优点是覆盖更宽、能表达软偏好,缺点是训练成本高、标注偏差明显、分布外不稳,也会被 reward hacking。实际后训练会把硬约束做成规则底线,把主观质量交给 reward model 或人评,并通过归一化、权重、分层评测和 badcase 审计防止某个 reward 绑架整体目标。
选规则还是奖励模型,第一判断不是哪个更先进,而是任务目标能不能被可靠自动验证。如果答案对错、格式、工具执行结果或安全约束可以确定判定,规则 reward 往往更合适;如果目标是开放式质量或偏好排序,就需要奖励模型或人类评审近似。
规则 reward 适合可执行、可检查、边界明确的目标。例子包括代码是否通过单测、数学答案是否等价、JSON 是否符合 schema、工具调用参数是否合法、引用是否来自检索证据、Agent 是否完成指定步骤。它的优点是低成本、稳定和易排查。
规则只能奖励它看得见的指标。模型可能输出满足格式但内容空洞的答案,代码可能只过公开测试,Agent 可能为了成功标志跳过真实用户价值。规则越简单,越容易被策略投机;规则越复杂,维护成本和误伤也会上升。
奖励模型可以学习人类对两个回答的偏好,覆盖帮助性、完整性、事实性、语气、推理质量和安全边界等软目标。它适合开放问答、摘要、对话助手、多轮任务和无法穷举规则的复杂场景,但它本质仍是代理目标。
奖励模型依赖标注数据、偏好定义和训练分布。标注者偏好不一致、训练样本覆盖不足、长度偏置、风格偏置或分布外任务都会让 reward 失真。策略模型还可能学会让奖励模型高分的表面模式,而不是真正提升用户价值。
更稳的方案是规则做不可破的硬约束和可验证子目标,奖励模型负责主观质量排序,再用人评、holdout verifier、分任务指标和线上反馈校准。还要控制 reward 权重和尺度,否则一个容易刷分的信号会压过其他目标。
最终答案可验证时适合规则 reward 或 verifier,但推理过程质量、解释清晰度和多步鲁棒性可能还需要过程评估、奖励模型或人评补充。
很难。字数、格式、敏感词等规则只能覆盖表层约束,写作质量、逻辑、事实性和风格偏好通常需要奖励模型或人工偏好数据。
先把硬约束设为门槛或强惩罚,再对软目标做尺度归一化和消融实验。最终按 held-out、人评和业务指标调权,而不是凭主观拍一个比例。
看训练 reward 和独立人评是否背离,检查长度、模板化、重复、规则边界样本、分布外任务和失败案例,并用 holdout verifier 或人工审计复核。