真实面经题目 · 原创解析

Reward model你觉得训练到什么程度可以?

Reward model 训练到什么程度可以,核心不是训练集 loss 越低越好,而是偏好排序能力、校准性、泛化能力和下游策略优化效果达到稳定可用,并且没有明显 reward hacking 风险。

出现于:美团 · 算法

60 秒回答模板

我会把标准分成四类:第一,离线偏好预测要过关,例如验证集 pairwise accuracy、AUC、Kendall/Spearman 相关、分桶单调性和人工一致性稳定提升;第二,模型要泛化,不能只在训练分布好,要在难例、长尾、不同任务和 OOD 样本上不过度崩;第三,reward 分数要可用,分布不能塌缩,校准要合理,对长度、格式、模板和安全边界不能有明显偏置;第四,下游 PPO、DPO 对比或 rejection sampling 后,人工评测和业务指标继续提升且没有 reward hacking。满足这些并在验证集早停点附近稳定,就可以认为训练到可用程度。

考点 验证集早停
难度 真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

目标不是拟合到零

Reward model 学的是人类偏好或业务偏好,本身存在噪声和主观差异。训练集 loss 很低可能只是记住标注偏好,不能说明它能指导策略模型变好,因此要以验证集和下游效果为主。

02

看离线排序质量

常用指标包括 pairwise accuracy、AUC、Kendall 或 Spearman 相关、chosen/rejected margin、分桶单调性和标注员一致性。重点不是单点指标,而是不同任务、人群和难度切片都稳定。

03

检查分数可用性

Reward 分数要有区分度和合理分布,不能所有样本都挤在一小段,也不能被长度、客套话、格式模板或安全套话轻易操纵。必要时要做校准、归一化和偏置分析。

04

验证泛化和鲁棒

要保留未见任务、难负例、对抗样本、长文本、短文本和边界安全样本作为验证集。如果模型在这些集合上不稳,下游策略会学到错误奖励,甚至放大偏差。

05

以下游收益收口

最终标准是策略优化后是否更好。可以用人工偏好评测、胜率、拒答质量、安全性、业务满意度和线上实验验证;如果 reward 分升高但人工胜率下降,说明模型不可用。

易错点

  • 不要把训练 loss 越低当成越好,偏好数据有噪声且容易过拟合。
  • 不要只看整体准确率,关键任务、难例和长尾切片可能已经失效。
  • 不要忽略 reward hacking,高分输出未必是人工真正喜欢的输出。
  • 不要脱离下游策略效果判断,Reward model 本身只是优化代理目标。

面试官追问

Pairwise accuracy 到多少才够?

没有固定阈值,要看标注一致性上限和业务难度。通常要超过强基线,并在关键切片稳定,同时下游优化能带来人工胜率提升。

训练集指标继续变好要不要继续训?

如果验证集和难例集不再提升,甚至 chosen/rejected margin 异常变大,就应早停。Reward model 过拟合会误导策略模型。

怎么发现 reward hacking?

构造对抗样本检查模型是否偏爱冗长、套话、格式正确但内容错误、重复表达或规避性回答,再看高 reward 样本的人工质量。