多模态 CoT 场景下，如何构造用于 DPO 的偏好数据，并保证推理过程与图文证据一致？｜百度算法面经解析

60 秒回答模板

多模态 CoT 的 DPO 数据不能只比较两个最终答案好坏，还要关注推理过程是否真的基于图像或视频证据。偏好对需要覆盖答案正确、证据引用、推理步骤、安全和表达质量。先定义任务类型：按 VQA、图文推理、OCR 理解、视觉定位、视频事件、图表理解等任务分桶。不同任务的 CoT 证据和偏好标准不同，不能混成一个粗粒度集合。构造正负偏好对：正样本应答案正确、步骤合理、引用可见证据；负样本可以是看错对象、忽略文字、空间关系错、臆造不可见信息、推理跳步或安全违规。控制 CoT 质量：多模态 CoT 要避免写出看似合理但证据不存在的解释。可用人工标注、模型辅助初筛、视觉 grounding 校验和一致性检查提高质量。 DPO 训练注意分布：偏好数据要平衡任务、难度、模态、答案长度和错误类型。过多简单样本会让模型学会表达偏好，而不是提升视觉推理。评估看过程和结果：除了最终准确率，还要看证据一致性、幻觉率、OCR 错误、定位错误、安全拒答、解释可用性和人评胜率。最后要把方案落到可验证的指标、失败兜底和迭代闭环上。面试里不要只讲概念名词，要说明边界、取舍、数据来源、线上观测和出问题后的回滚或人工介入。

考点 任务分桶

难度 真实面经题

回答目标 展示你能把多模态 DPO 数据构造成可训练、可解释、可评估的偏好集合。

深入解析

先定义任务类型

按 VQA、图文推理、OCR 理解、视觉定位、视频事件、图表理解等任务分桶。不同任务的 CoT 证据和偏好标准不同，不能混成一个粗粒度集合。

构造正负偏好对

正样本应答案正确、步骤合理、引用可见证据；负样本可以是看错对象、忽略文字、空间关系错、臆造不可见信息、推理跳步或安全违规。

控制 CoT 质量

多模态 CoT 要避免写出看似合理但证据不存在的解释。可用人工标注、模型辅助初筛、视觉 grounding 校验和一致性检查提高质量。

DPO 训练注意分布

偏好数据要平衡任务、难度、模态、答案长度和错误类型。过多简单样本会让模型学会表达偏好，而不是提升视觉推理。

评估看过程和结果

除了最终准确率，还要看证据一致性、幻觉率、OCR 错误、定位错误、安全拒答、解释可用性和人评胜率。

易错点

只比较最终答案，不评估图文证据。
负样本类型单一，模型学不到真实错误边界。
让模型生成 CoT 后不做人工或规则校验。
偏好对长度和格式差异太大，引入伪相关。
评估只看 benchmark 分数，不看幻觉和证据一致性。

面试官追问

多模态 DPO 数据和文本 DPO 最大区别是什么？

多模态偏好必须验证答案和推理是否由视觉证据支持，不能只看语言流畅度或最终答案。

如何构造高质量负样本？

可以从模型真实 badcase、自动扰动、相似图干扰、OCR 错误和人工改写中获得，但要确保负样本错误类型明确。

CoT 是否都应该暴露给用户？

训练中可用过程监督，但产品输出可转成简洁解释和证据摘要，避免输出冗长或不稳定的内部推理。

如何防止模型学会偏好长度？

偏好对要控制长度、风格和格式，让胜负主要来自证据正确性和推理质量，而不是更长或更像模板。