Reward model 不准确时怎么办？｜美团算法面经解析

60 秒回答模板

我会先暂停把它作为强优化目标使用，定位不准确来自哪里：检查偏好数据质量、标注一致性、任务切片、chosen/rejected 构造、训练验证分布差异和 reward 分数校准；然后补充高质量标注、难例和对抗样本，修正长度偏置、格式偏置和安全边界问题；模型层面可以调损失、正则、早停、集成或分任务建模；上线前用人工评测、胜率、reward hacking 测试和下游策略实验验证。必要时降低 reward 权重，改用规则、人工 rerank 或 DPO 等替代方案。

考点 先控风险

难度 真实面经题

回答目标 讲清方法、取舍和追问

深入解析

先停止放大错误

如果 Reward model 明显不准，继续用它做 PPO 或大规模 rerank 会让策略模型学会钻错误奖励。第一步应降低权重、暂停上线或只在离线环境分析。

排查数据问题

检查偏好样本是否覆盖目标任务，chosen/rejected 是否质量差异明确，标注员一致性是否足够，是否存在模板化、长度偏置、采样偏差和过期业务标准。

做切片评估

总体准确率可能掩盖问题。要按任务类型、长短文本、安全类、推理类、客服类、长尾 query 和 OOD 样本看 pairwise accuracy、AUC、分桶单调性和人工一致性。

修复模型和校准

可以增加难例、重标冲突样本、调整损失和采样权重、做正则和早停、校准 reward 分布、训练多任务或集成模型，减少对长度、格式和套话的错误偏好。

回到下游验证

修复后不能只看离线指标，要用人工偏好胜率、业务指标、红队样本、reward hacking 检查和小流量实验验证策略模型是否真的变好。

易错点

不要说继续加数据训练就完事，先要定位数据、标注、模型还是分布问题。
不要只看整体 accuracy，错误常集中在关键任务切片。
不要忽略 reward hacking，策略模型会利用 reward 的漏洞。
不要让 Reward model 自己证明自己，必须有人评或业务指标闭环。

面试官追问

Reward model 不准但训练指标很好是什么原因？

可能是训练集过拟合、验证集泄漏、标注偏差、样本过于简单，或模型学到了长度和格式等伪相关特征。

怎么发现长度偏置？

构造语义相同但长度不同的候选，比较 reward 分；也可以按回答长度分桶看 reward 和人工偏好是否异常背离。

如果短期修不好怎么办？

降低 reward 权重，叠加规则和人工审核，限制高风险场景，或改用更直接的偏好优化和人工 rerank 流程。