公司岗位题库

百度 算法面经第 2 页

55 道题 37 个标签 55 条出现记录

算法工程师相关题目第 2 页

DPO 为什么可能导致回答过长,SimPO 如何缓解长度偏置?

这题考察对偏好优化目标的细节理解。核心不是简单说“DPO 会变啰嗦,SimPO 会变短”,而是要解释 DPO 的隐式 reward 如何由整段回答的 logprob 差构成,为什么长度、参考模型、偏好数据和评测方式会共同放大长回答倾向,以及 SimPO 如何用平均 log probability 和目标间隔缓解这种偏置。