知识点标签

DPO面试题解析

DPO相关面试题解析，按真实面经题目沉淀核心机制、易错点和面试官追问。

12 道题 3 个岗位 7 个公司

标签题目

DPO相关面试题

字节跳动 / 算法

DPO 训练中的正反馈样例如何构造？

DPO 的正反馈样例不是单独的好回答，而是偏好对里的 chosen answer。构造时要保证同一 prompt 下正样本相对负样本更符合事实、指令、风格、安全和业务目标，并通过人工或高可信信号过滤噪声。

大语言模型 DPO 模型微调

字节跳动 / 算法

SFT 之后做 DPO，DPO 和 RLHF/PPO 有什么区别？

SFT 之后做 DPO，是先让模型学会基本任务格式和能力，再用偏好对调整回答倾向。DPO 直接用偏好数据优化策略与参考模型的概率比，RLHF/PPO 通常先训练奖励模型，再通过强化学习在线优化奖励，工程复杂度和稳定性差异很大。

算法大语言模型 SFT 模型微调 DPO RLHF

滴滴 / 算法

一个模型对prompt会生成多种回答，那么DPO的pair数据如何选取？

DPO 的 pair 数据不是简单地从同一个 prompt 的多个回答里任意两两组合，而是要构造“同一上下文下，偏好方向明确、质量差异可学习、噪声可控”的 chosen/rejected 对。核心目标是让模型学习相对偏好，同时避免把无意义差异、标注偏差或长度偏置放大。

大语言模型 DPO RLHF

阿里巴巴 / 算法

为什么聊天大模型通常不能跳过 SFT 直接做强化学习后训练，Reward Model、DPO/PPO 和稳定性约束分别解决什么问题？

这题考大模型后训练的稳定性理解：SFT 先把模型带到可对话、可遵循指令的分布，强化学习或偏好优化再做对齐；直接 RL 容易稀疏奖励、探索失控和能力退化。

大语言模型模型训练强化学习 RLHF SFT DPO

百度 / 算法

DPO 偏好样本中的 reward 或偏好维度应如何选择，如何保证对齐目标和训练稳定性？

这题考的是 DPO 数据和偏好目标设计：不是只会说 chosen/rejected，而是能把业务目标、偏好维度、样本构造、冲突处理、训练稳定和评测闭环讲清楚。

大语言模型 DPO RLHF 模型微调模型训练模型评估

百度 / 算法

模型对齐后变得过于保守、经常拒答时，如何调整偏好数据、拒答策略和安全阈值？

这题考的是对齐训练中的 helpfulness 与 harmlessness 校准能力：候选人要能把过度拒答拆成数据标签、偏好目标、reward/judge 偏置、安全分类阈值和线上策略问题，并给出训练与评估闭环。

大语言模型 RLHF DPO 模型训练模型微调模型评估

阿里巴巴 / 算法

Qwen 这类大模型如何设计安全策略，减少有害内容和偏见输出？

这题考的是大模型安全治理的系统观：减少有害内容和偏见输出不能只靠一句安全提示词，而要把政策定义、数据治理、对齐训练、运行时护栏、红队评测和线上反馈做成闭环。

通义千问大语言模型 AI 伦理模型评估 RLHF DPO

阿里巴巴 / 算法

RLHF、DPO、PPO 或 GRPO 中 reference model 起什么作用？如果不能保留完整 reference，可以用哪些替代或近似约束？

这题考的是对齐训练里 reference model 的约束本质：它不是装饰性的第二个模型，而是定义“不要偏离初始策略太远”的行为锚点。在 PPO、DPO、GRPO 等方法中，reference 通过 KL、log probability ratio 或隐式 reward 基线抑制奖励黑客、语言退化和安全边界漂移；如果不能完整保留，也要知道哪些近似能替代、哪些只能部分约束。

大语言模型 RLHF DPO 强化学习模型训练模型评估

美团 / 算法

DPO、PPO、GRPO 三种对齐方法在工程上如何选择，各自适合什么反馈和决策场景？

这题考的是候选人能否把 DPO、PPO、GRPO 从“算法名词”落到工程选择。好答案要先按反馈形态和决策场景分类：只有离线成对偏好时优先 DPO；有可训练奖励模型、在线采样和长链动作优化需求时考虑 PPO；同一 prompt 能采多条候选并用组内相对奖励比较，尤其是可验证任务或推理题时适合 GRPO。还要讲清 reward hacking、KL 漂移、长度偏置、探索成本、训练稳定性和评估指标。

同题还出现在 2 个公司岗位

大语言模型强化学习 RLHF DPO 模型训练模型评估

美团 / 产品

DPO 是什么，和 SFT 在训练目标、数据形式和适用阶段上有什么区别？

SFT 和 DPO 都用于大模型训练后的对齐阶段，但目标不同。SFT 是让模型学习应该怎么回答的示范答案，DPO 是让模型学习同一问题下更偏好哪一个回答。SFT 更偏能力和格式学习，DPO 更偏偏好对齐、风格控制和质量排序。

同题还出现在 1 个公司岗位

大语言模型模型微调 DPO SFT AI 产品

百度 / 算法

DPO 为什么可能导致回答过长，SimPO 如何缓解长度偏置？

这题考察对偏好优化目标的细节理解。核心不是简单说“DPO 会变啰嗦，SimPO 会变短”，而是要解释 DPO 的隐式 reward 如何由整段回答的 logprob 差构成，为什么长度、参考模型、偏好数据和评测方式会共同放大长回答倾向，以及 SimPO 如何用平均 log probability 和目标间隔缓解这种偏置。

大语言模型 DPO RLHF 强化学习模型训练模型评估

百度 / 算法

多模态 CoT 场景下，如何构造用于 DPO 的偏好数据，并保证推理过程与图文证据一致？

这题考多模态偏好数据构造。回答要讲正负样本、图文证据一致性、推理链标注、偏好质量、DPO 训练和评估闭环。

多模态学习 DPO 模型训练模型评估