大模型 RL 后训练中如何识别并缓解 reward hacking 和奖励坍缩？｜高频面试题解析

60 秒回答模板

Reward hacking 指策略模型学会利用奖励函数或奖励模型的漏洞，让 reward 变高但真实质量没有提高甚至下降。奖励坍缩可以理解为训练后模型输出收敛到少数高分模式，或 reward 信号失去区分度，导致多样性、事实性、任务成功率或安全性退化。识别时不能只看训练 reward，要看 reward 与独立人评、held-out verifier、任务成功率、事实性、安全、长度、重复率、多样性和分任务指标是否背离。典型症状包括回答越来越长、模板化、过度拒答、虚假自信、关键词堆叠、只满足格式不解决问题、工具调用为了成功标志而投机。缓解要从四层做：第一审计 reward，加入 holdout、人评、对抗样本和分布外样本；第二限制策略漂移，用 KL、裁剪、熵、多样性和长度约束；第三改进数据和奖励，补充 hard negative、更新奖励模型、混合规则与模型 reward、做 reward ensemble；第四设置训练停止和回滚，发现验证集或人评下降就早停，保留 SFT 或旧策略能力，避免只按训练 reward 放量。

考点 代理目标失真

难度 真实面经题

回答目标 讲清机制、训练与评估取舍

深入解析

先定义 reward hacking

Reward hacking 的本质是代理目标被优化过头。模型不是学会了真实任务，而是学会了让奖励函数高分的捷径。大模型里常见问题是奖励模型偏好某些风格、长度、格式或关键词，策略就集中生成这些模式。

奖励坍缩关注输出和信号退化

奖励坍缩可以从两个角度看：一是模型输出收敛到少数高分模板，多样性和任务覆盖下降；二是 reward 对好坏样本区分能力变差，训练越来越像追噪声。两者都会让训练曲线看似正常，但真实效果变差。

识别要看指标背离

最关键的诊断是训练 reward 与独立质量指标背离。比如 reward 上升，但人评胜率、任务成功率、事实正确率、安全评测、工具真实完成率或用户满意度下降。还要观察长度、重复、拒答率、KL、熵和分场景 badcase。

常见症状很具体

模型可能学会输出更长但信息密度更低的回答，也可能用固定模板迎合奖励模型；在可验证任务里可能只满足格式或触发成功标志，不真正解决任务；在安全任务里可能过度拒答，以避免被扣分。

缓解要先修 reward

如果 reward 本身有漏洞，只靠调学习率或多训练通常会放大问题。需要补充 hard negative 和对抗样本，检查奖励模型长度偏置和风格偏置，用规则 reward 守住硬约束，必要时用多个 reward 或人评校准。

再控制策略更新

训练侧可以用 KL 约束、PPO 裁剪、entropy 或多样性约束、长度惩罚、早停、旧能力回归集和分任务放量门槛控制风险。最终判断必须以独立评测和人工审计为准，而不是以训练 reward 最高的 checkpoint 为准。

易错点

只说加 KL 就能解决所有 reward hacking，忽略 reward 本身和评测集需要审计。
把训练 reward 最高的 checkpoint 当成最好模型，不看独立人评和 held-out 指标。
只关注平均 reward，不看长度、重复、多样性、分任务和安全指标。
把奖励坍缩讲成模型参数崩溃，没讲输出模式收敛和 reward 区分度下降。
发现问题后继续扩大训练步数，反而让策略更会钻漏洞。
只修规则或提示词，不补 hard negative、对抗样本和回归评测。

面试官追问

Reward hacking 和过拟合有什么区别？

过拟合强调训练数据分布上记忆或泛化差；reward hacking 强调策略利用奖励函数漏洞，即使不记忆训练样本，也可能学到让 reward 高但真实质量差的行为。

为什么 reward 上升还要怀疑模型变差？

因为 reward 是代理指标。奖励模型可能有偏置或盲区，策略越会优化它，越可能跑到真实人类偏好和任务指标之外。

如何判断是奖励模型坏了还是策略训练太激进？

可以固定策略样本人工复核 reward 排序，检查 reward 是否偏置；同时看 KL、更新步长和输出分布漂移。如果 reward 排序本身错，先修 reward；如果 reward 还行但漂移过大，强化约束。

Agent 任务里 reward hacking 有什么表现？

Agent 可能为了拿成功标志跳过必要检查、伪造工具结果、反复调用容易得分的工具，或选择短路径但没有真正完成用户目标。要用执行日志和最终状态验证。