DPO 训练中的正反馈样例如何构造？｜字节跳动算法面经解析

60 秒回答模板

DPO 训练需要的是偏好数据，一条样本通常包含 prompt、chosen response 和 rejected response。正反馈样例就是 chosen response，不能只收集点赞回答就直接训练，而要和同一输入下的较差回答形成可比较的偏好对。构造来源可以有人工标注偏好、线上显式反馈、专家改写后的高质量回答、规则校验通过的答案，以及多个模型候选中的人工选优。构造时要控制质量：正负样本应只在目标维度上有清晰差异，避免长度、格式、模板化表达成为伪信号；要去除事实错误、泄露隐私和安全违规内容；还要覆盖困难问题、边界问题和高频真实问题。训练前通常会做去重、打散、难度分层、标注一致性检查和小规模验证集评估。

考点 DPO 样本的基本单元

主线 正样本来源

易错点 把 DPO 正反馈样例理解成单独的优质答案，忘记需要 …

深入解析

DPO 样本的基本单元

DPO 不是监督微调那种单输入单输出训练，而是学习偏好方向。每条样本包含同一个 prompt 下的两个回答，一个被认为更好，一个被认为更差。正反馈样例对应 chosen response，它的意义来自与 rejected response 的对比，而不是绝对意义上的完美答案。没有负样本配对，DPO 就无法学习偏好边界。

正样本来源

可靠来源包括人工偏好标注、专家撰写或修订答案、线上显式满意反馈、客服或教师确认的高质量回复，以及多模型候选中的人工选优。弱信号也可以使用，例如停留时长、追问减少、任务完成，但必须经过清洗，因为用户点赞、复制或继续对话并不总是代表回答质量高。

配对比收集更关键

同一个正样本要配合合适的负样本。负样本可以来自旧模型回答、低质量采样、事实错误回答、风格不符合要求的回答或安全不合规回答。好的偏好对应该让模型学到明确差异：事实更准确、推理更完整、格式更符合、拒答更恰当或更贴合用户目标。若正负差异只是长短不同，模型可能学到错误偏好。

质量过滤和去偏

构造前要定义评分维度，例如正确性、完整性、遵循指令、可读性、安全性和业务约束。构造后要检查标注一致性、答案长度分布、模板重复率、敏感信息和事实引用。对于争议样本，可以多标注员投票或专家复审。DPO 对偏好噪声较敏感，正样本混入错误事实会直接把模型推向错误方向。

数据覆盖和训练稳定

正反馈样例不能只覆盖容易问题，否则模型只学到表面风格。需要包含高频问题、长尾问题、容易误拒的问题、需要澄清的问题和安全边界问题。还要保留验证集监控胜率、拒答率、长度变化和任务成功率。实际训练时常把 DPO 放在 SFT 之后，让模型先具备基础回答能力，再用偏好对调整行为边界。

易错点

把 DPO 正反馈样例理解成单独的优质答案，忘记需要 rejected 配对。
直接把所有点赞回答当正样本，忽略弱反馈噪声。
正负样本差异被长度和格式主导，导致模型学习伪偏好。
没有做事实、安全和隐私过滤，把错误偏好写进模型行为。

面试官追问

用户点赞的回答能直接作为 chosen 吗？

不建议直接使用。点赞是有价值信号，但可能受用户习惯、位置、回答长度和场景影响。最好结合人工抽检、任务完成、负样本配对和质量规则，再决定是否进入 DPO 数据集。

DPO 的 rejected response 应该怎么来？

可以来自旧模型、同模型低温或高温采样、被人工判差的线上回答、规则校验失败答案和刻意构造的常见错误答案。关键是与 chosen 使用同一 prompt，并形成清晰偏好差异。

正样本是不是越完美越好？

质量越高越好，但更重要的是偏好边界清楚且分布真实。过度理想化的答案可能让模型学到不自然风格；真实场景中的高质量回答加上明确负样本，通常更有训练价值。

如何发现 DPO 数据有长度偏置？

统计 chosen 和 rejected 的长度分布，观察 chosen 是否系统性更长；再构造长度相近的偏好对做验证。如果模型训练后明显变啰嗦，也说明数据或损失权重可能在鼓励长度。