标签题目
DPO相关面试题
DPO 训练中的正反馈样例如何构造?
DPO 的正反馈样例不是单独的好回答,而是偏好对里的 chosen answer。构造时要保证同一 prompt 下正样本相对负样本更符合事实、指令、风格、安全和业务目标,并通过人工或高可信信号过滤噪声。
SFT 之后做 DPO,DPO 和 RLHF/PPO 有什么区别?
SFT 之后做 DPO,是先让模型学会基本任务格式和能力,再用偏好对调整回答倾向。DPO 直接用偏好数据优化策略与参考模型的概率比,RLHF/PPO 通常先训练奖励模型,再通过强化学习在线优化奖励,工程复杂度和稳定性差异很大。