60 秒回答模板

多模态 CoT 的 DPO 数据不能只比较两个最终答案好坏,还要关注推理过程是否真的基于图像或视频证据。偏好对需要覆盖答案正确、证据引用、推理步骤、安全和表达质量。 先定义任务类型:按 VQA、图文推理、OCR 理解、视觉定位、视频事件、图表理解等任务分桶。不同任务的 CoT 证据和偏好标准不同,不能混成一个粗粒度集合。 构造正负偏好对:正样本应答案正确、步骤合理、引用可见证据;负样本可以是看错对象、忽略文字、空间关系错、臆造不可见信息、推理跳步或安全违规。 控制 CoT 质量:多模态 CoT 要避免写出看似合理但证据不存在的解释。可用人工标注、模型辅助初筛、视觉 grounding 校验和一致性检查提高质量。 DPO 训练注意分布:偏好数据要平衡任务、难度、模态、答案长度和错误类型。过多简单样本会让模型学会表达偏好,而不是提升视觉推理。 评估看过程和结果:除了最终准确率,还要看证据一致性、幻觉率、OCR 错误、定位错误、安全拒答、解释可用性和人评胜率。 最后要把方案落到可验证的指标、失败兜底和迭代闭环上。面试里不要只讲概念名词,要说明边界、取舍、数据来源、线上观测和出问题后的回滚或人工介入。

考点 任务分桶
难度 真实面经题
回答目标 展示你能把多模态 DPO 数据构造成可训练、可解释、可评估的偏好集合。

深入解析

01

先定义任务类型

按 VQA、图文推理、OCR 理解、视觉定位、视频事件、图表理解等任务分桶。不同任务的 CoT 证据和偏好标准不同,不能混成一个粗粒度集合。

02

构造正负偏好对

正样本应答案正确、步骤合理、引用可见证据;负样本可以是看错对象、忽略文字、空间关系错、臆造不可见信息、推理跳步或安全违规。

03

控制 CoT 质量

多模态 CoT 要避免写出看似合理但证据不存在的解释。可用人工标注、模型辅助初筛、视觉 grounding 校验和一致性检查提高质量。

04

DPO 训练注意分布

偏好数据要平衡任务、难度、模态、答案长度和错误类型。过多简单样本会让模型学会表达偏好,而不是提升视觉推理。

05

评估看过程和结果

除了最终准确率,还要看证据一致性、幻觉率、OCR 错误、定位错误、安全拒答、解释可用性和人评胜率。

易错点

  • 只比较最终答案,不评估图文证据。
  • 负样本类型单一,模型学不到真实错误边界。
  • 让模型生成 CoT 后不做人工或规则校验。
  • 偏好对长度和格式差异太大,引入伪相关。
  • 评估只看 benchmark 分数,不看幻觉和证据一致性。

面试官追问

多模态 DPO 数据和文本 DPO 最大区别是什么?

多模态偏好必须验证答案和推理是否由视觉证据支持,不能只看语言流畅度或最终答案。

如何构造高质量负样本?

可以从模型真实 badcase、自动扰动、相似图干扰、OCR 错误和人工改写中获得,但要确保负样本错误类型明确。

CoT 是否都应该暴露给用户?

训练中可用过程监督,但产品输出可转成简洁解释和证据摘要,避免输出冗长或不稳定的内部推理。

如何防止模型学会偏好长度?

偏好对要控制长度、风格和格式,让胜负主要来自证据正确性和推理质量,而不是更长或更像模板。