真实面经题目 · 原创解析

DPO 训练中的正反馈样例如何构造?

DPO 的正反馈样例不是单独的好回答,而是偏好对里的 chosen answer。构造时要保证同一 prompt 下正样本相对负样本更符合事实、指令、风格、安全和业务目标,并通过人工或高可信信号过滤噪声。

出现于:字节跳动 · 算法

60 秒回答模板

DPO 训练需要的是偏好数据,一条样本通常包含 prompt、chosen response 和 rejected response。正反馈样例就是 chosen response,不能只收集点赞回答就直接训练,而要和同一输入下的较差回答形成可比较的偏好对。构造来源可以有人工标注偏好、线上显式反馈、专家改写后的高质量回答、规则校验通过的答案,以及多个模型候选中的人工选优。构造时要控制质量:正负样本应只在目标维度上有清晰差异,避免长度、格式、模板化表达成为伪信号;要去除事实错误、泄露隐私和安全违规内容;还要覆盖困难问题、边界问题和高频真实问题。训练前通常会做去重、打散、难度分层、标注一致性检查和小规模验证集评估。

考点 正样本是 chosen
难度 真实面经高频题
回答目标 讲清机制、边界和追问

深入解析

01

DPO 样本的基本单元

DPO 不是监督微调那种单输入单输出训练,而是学习偏好方向。每条样本包含同一个 prompt 下的两个回答,一个被认为更好,一个被认为更差。正反馈样例对应 chosen response,它的意义来自与 rejected response 的对比,而不是绝对意义上的完美答案。没有负样本配对,DPO 就无法学习偏好边界。

02

正样本来源

可靠来源包括人工偏好标注、专家撰写或修订答案、线上显式满意反馈、客服或教师确认的高质量回复,以及多模型候选中的人工选优。弱信号也可以使用,例如停留时长、追问减少、任务完成,但必须经过清洗,因为用户点赞、复制或继续对话并不总是代表回答质量高。

03

配对比收集更关键

同一个正样本要配合合适的负样本。负样本可以来自旧模型回答、低质量采样、事实错误回答、风格不符合要求的回答或安全不合规回答。好的偏好对应该让模型学到明确差异:事实更准确、推理更完整、格式更符合、拒答更恰当或更贴合用户目标。若正负差异只是长短不同,模型可能学到错误偏好。

04

质量过滤和去偏

构造前要定义评分维度,例如正确性、完整性、遵循指令、可读性、安全性和业务约束。构造后要检查标注一致性、答案长度分布、模板重复率、敏感信息和事实引用。对于争议样本,可以多标注员投票或专家复审。DPO 对偏好噪声较敏感,正样本混入错误事实会直接把模型推向错误方向。

05

数据覆盖和训练稳定

正反馈样例不能只覆盖容易问题,否则模型只学到表面风格。需要包含高频问题、长尾问题、容易误拒的问题、需要澄清的问题和安全边界问题。还要保留验证集监控胜率、拒答率、长度变化和任务成功率。实际训练时常把 DPO 放在 SFT 之后,让模型先具备基础回答能力,再用偏好对调整行为边界。

易错点

  • 把 DPO 正反馈样例理解成单独的优质答案,忘记需要 rejected 配对。
  • 直接把所有点赞回答当正样本,忽略弱反馈噪声。
  • 正负样本差异被长度和格式主导,导致模型学习伪偏好。
  • 没有做事实、安全和隐私过滤,把错误偏好写进模型行为。

面试官追问

用户点赞的回答能直接作为 chosen 吗?

不建议直接使用。点赞是有价值信号,但可能受用户习惯、位置、回答长度和场景影响。最好结合人工抽检、任务完成、负样本配对和质量规则,再决定是否进入 DPO 数据集。

DPO 的 rejected response 应该怎么来?

可以来自旧模型、同模型低温或高温采样、被人工判差的线上回答、规则校验失败答案和刻意构造的常见错误答案。关键是与 chosen 使用同一 prompt,并形成清晰偏好差异。

正样本是不是越完美越好?

质量越高越好,但更重要的是偏好边界清楚且分布真实。过度理想化的答案可能让模型学到不自然风格;真实场景中的高质量回答加上明确负样本,通常更有训练价值。

如何发现 DPO 数据有长度偏置?

统计 chosen 和 rejected 的长度分布,观察 chosen 是否系统性更长;再构造长度相近的偏好对做验证。如果模型训练后明显变啰嗦,也说明数据或损失权重可能在鼓励长度。