真实面经题目 · 原创解析
Reward model 不准确时怎么办?
Reward model 不准确时不能直接继续强化学习,否则会放大错误偏好。稳妥回答要从数据、标注、模型、校准、对抗评测和下游闭环逐层修复。
真实面经题目 · 原创解析
Reward model 不准确时不能直接继续强化学习,否则会放大错误偏好。稳妥回答要从数据、标注、模型、校准、对抗评测和下游闭环逐层修复。
我会先暂停把它作为强优化目标使用,定位不准确来自哪里:检查偏好数据质量、标注一致性、任务切片、chosen/rejected 构造、训练验证分布差异和 reward 分数校准;然后补充高质量标注、难例和对抗样本,修正长度偏置、格式偏置和安全边界问题;模型层面可以调损失、正则、早停、集成或分任务建模;上线前用人工评测、胜率、reward hacking 测试和下游策略实验验证。必要时降低 reward 权重,改用规则、人工 rerank 或 DPO 等替代方案。
如果 Reward model 明显不准,继续用它做 PPO 或大规模 rerank 会让策略模型学会钻错误奖励。第一步应降低权重、暂停上线或只在离线环境分析。
检查偏好样本是否覆盖目标任务,chosen/rejected 是否质量差异明确,标注员一致性是否足够,是否存在模板化、长度偏置、采样偏差和过期业务标准。
总体准确率可能掩盖问题。要按任务类型、长短文本、安全类、推理类、客服类、长尾 query 和 OOD 样本看 pairwise accuracy、AUC、分桶单调性和人工一致性。
可以增加难例、重标冲突样本、调整损失和采样权重、做正则和早停、校准 reward 分布、训练多任务或集成模型,减少对长度、格式和套话的错误偏好。
修复后不能只看离线指标,要用人工偏好胜率、业务指标、红队样本、reward hacking 检查和小流量实验验证策略模型是否真的变好。
可能是训练集过拟合、验证集泄漏、标注偏差、样本过于简单,或模型学到了长度和格式等伪相关特征。
构造语义相同但长度不同的候选,比较 reward 分;也可以按回答长度分桶看 reward 和人工偏好是否异常背离。
降低 reward 权重,叠加规则和人工审核,限制高风险场景,或改用更直接的偏好优化和人工 rerank 流程。