真实面经题目 · 原创解析
Reward model你觉得训练到什么程度可以?
Reward model 训练到什么程度可以,核心不是训练集 loss 越低越好,而是偏好排序能力、校准性、泛化能力和下游策略优化效果达到稳定可用,并且没有明显 reward hacking 风险。
真实面经题目 · 原创解析
Reward model 训练到什么程度可以,核心不是训练集 loss 越低越好,而是偏好排序能力、校准性、泛化能力和下游策略优化效果达到稳定可用,并且没有明显 reward hacking 风险。
我会把标准分成四类:第一,离线偏好预测要过关,例如验证集 pairwise accuracy、AUC、Kendall/Spearman 相关、分桶单调性和人工一致性稳定提升;第二,模型要泛化,不能只在训练分布好,要在难例、长尾、不同任务和 OOD 样本上不过度崩;第三,reward 分数要可用,分布不能塌缩,校准要合理,对长度、格式、模板和安全边界不能有明显偏置;第四,下游 PPO、DPO 对比或 rejection sampling 后,人工评测和业务指标继续提升且没有 reward hacking。满足这些并在验证集早停点附近稳定,就可以认为训练到可用程度。
Reward model 学的是人类偏好或业务偏好,本身存在噪声和主观差异。训练集 loss 很低可能只是记住标注偏好,不能说明它能指导策略模型变好,因此要以验证集和下游效果为主。
常用指标包括 pairwise accuracy、AUC、Kendall 或 Spearman 相关、chosen/rejected margin、分桶单调性和标注员一致性。重点不是单点指标,而是不同任务、人群和难度切片都稳定。
Reward 分数要有区分度和合理分布,不能所有样本都挤在一小段,也不能被长度、客套话、格式模板或安全套话轻易操纵。必要时要做校准、归一化和偏置分析。
要保留未见任务、难负例、对抗样本、长文本、短文本和边界安全样本作为验证集。如果模型在这些集合上不稳,下游策略会学到错误奖励,甚至放大偏差。
最终标准是策略优化后是否更好。可以用人工偏好评测、胜率、拒答质量、安全性、业务满意度和线上实验验证;如果 reward 分升高但人工胜率下降,说明模型不可用。
没有固定阈值,要看标注一致性上限和业务难度。通常要超过强基线,并在关键切片稳定,同时下游优化能带来人工胜率提升。
如果验证集和难例集不再提升,甚至 chosen/rejected margin 异常变大,就应早停。Reward model 过拟合会误导策略模型。
构造对抗样本检查模型是否偏爱冗长、套话、格式正确但内容错误、重复表达或规避性回答,再看高 reward 样本的人工质量。