Reward model你觉得训练到什么程度可以？｜美团算法面经解析

60 秒回答模板

我会把标准分成四类：第一，离线偏好预测要过关，例如验证集 pairwise accuracy、AUC、Kendall/Spearman 相关、分桶单调性和人工一致性稳定提升；第二，模型要泛化，不能只在训练分布好，要在难例、长尾、不同任务和 OOD 样本上不过度崩；第三，reward 分数要可用，分布不能塌缩，校准要合理，对长度、格式、模板和安全边界不能有明显偏置；第四，下游 PPO、DPO 对比或 rejection sampling 后，人工评测和业务指标继续提升且没有 reward hacking。满足这些并在验证集早停点附近稳定，就可以认为训练到可用程度。

考点 验证集早停

难度 真实面经题

回答目标 讲清方法、取舍和追问

深入解析

目标不是拟合到零

Reward model 学的是人类偏好或业务偏好，本身存在噪声和主观差异。训练集 loss 很低可能只是记住标注偏好，不能说明它能指导策略模型变好，因此要以验证集和下游效果为主。

看离线排序质量

常用指标包括 pairwise accuracy、AUC、Kendall 或 Spearman 相关、chosen/rejected margin、分桶单调性和标注员一致性。重点不是单点指标，而是不同任务、人群和难度切片都稳定。

检查分数可用性

Reward 分数要有区分度和合理分布，不能所有样本都挤在一小段，也不能被长度、客套话、格式模板或安全套话轻易操纵。必要时要做校准、归一化和偏置分析。

验证泛化和鲁棒

要保留未见任务、难负例、对抗样本、长文本、短文本和边界安全样本作为验证集。如果模型在这些集合上不稳，下游策略会学到错误奖励，甚至放大偏差。

以下游收益收口

最终标准是策略优化后是否更好。可以用人工偏好评测、胜率、拒答质量、安全性、业务满意度和线上实验验证；如果 reward 分升高但人工胜率下降，说明模型不可用。

易错点

不要把训练 loss 越低当成越好，偏好数据有噪声且容易过拟合。
不要只看整体准确率，关键任务、难例和长尾切片可能已经失效。
不要忽略 reward hacking，高分输出未必是人工真正喜欢的输出。
不要脱离下游策略效果判断，Reward model 本身只是优化代理目标。

面试官追问

Pairwise accuracy 到多少才够？

没有固定阈值，要看标注一致性上限和业务难度。通常要超过强基线，并在关键切片稳定，同时下游优化能带来人工胜率提升。

训练集指标继续变好要不要继续训？

如果验证集和难例集不再提升，甚至 chosen/rejected margin 异常变大，就应早停。Reward model 过拟合会误导策略模型。

怎么发现 reward hacking？

构造对抗样本检查模型是否偏爱冗长、套话、格式正确但内容错误、重复表达或规避性回答，再看高 reward 样本的人工质量。