真实面经题目 · 原创解析
多模态 CoT 场景下,如何构造用于 DPO 的偏好数据,并保证推理过程与图文证据一致?
这题考多模态偏好数据构造。回答要讲正负样本、图文证据一致性、推理链标注、偏好质量、DPO 训练和评估闭环。
真实面经题目 · 原创解析
这题考多模态偏好数据构造。回答要讲正负样本、图文证据一致性、推理链标注、偏好质量、DPO 训练和评估闭环。
多模态 CoT 的 DPO 数据不能只比较两个最终答案好坏,还要关注推理过程是否真的基于图像或视频证据。偏好对需要覆盖答案正确、证据引用、推理步骤、安全和表达质量。 先定义任务类型:按 VQA、图文推理、OCR 理解、视觉定位、视频事件、图表理解等任务分桶。不同任务的 CoT 证据和偏好标准不同,不能混成一个粗粒度集合。 构造正负偏好对:正样本应答案正确、步骤合理、引用可见证据;负样本可以是看错对象、忽略文字、空间关系错、臆造不可见信息、推理跳步或安全违规。 控制 CoT 质量:多模态 CoT 要避免写出看似合理但证据不存在的解释。可用人工标注、模型辅助初筛、视觉 grounding 校验和一致性检查提高质量。 DPO 训练注意分布:偏好数据要平衡任务、难度、模态、答案长度和错误类型。过多简单样本会让模型学会表达偏好,而不是提升视觉推理。 评估看过程和结果:除了最终准确率,还要看证据一致性、幻觉率、OCR 错误、定位错误、安全拒答、解释可用性和人评胜率。 最后要把方案落到可验证的指标、失败兜底和迭代闭环上。面试里不要只讲概念名词,要说明边界、取舍、数据来源、线上观测和出问题后的回滚或人工介入。
按 VQA、图文推理、OCR 理解、视觉定位、视频事件、图表理解等任务分桶。不同任务的 CoT 证据和偏好标准不同,不能混成一个粗粒度集合。
正样本应答案正确、步骤合理、引用可见证据;负样本可以是看错对象、忽略文字、空间关系错、臆造不可见信息、推理跳步或安全违规。
多模态 CoT 要避免写出看似合理但证据不存在的解释。可用人工标注、模型辅助初筛、视觉 grounding 校验和一致性检查提高质量。
偏好数据要平衡任务、难度、模态、答案长度和错误类型。过多简单样本会让模型学会表达偏好,而不是提升视觉推理。
除了最终准确率,还要看证据一致性、幻觉率、OCR 错误、定位错误、安全拒答、解释可用性和人评胜率。
多模态偏好必须验证答案和推理是否由视觉证据支持,不能只看语言流畅度或最终答案。
可以从模型真实 badcase、自动扰动、相似图干扰、OCR 错误和人工改写中获得,但要确保负样本错误类型明确。
训练中可用过程监督,但产品输出可转成简洁解释和证据摘要,避免输出冗长或不稳定的内部推理。
偏好对要控制长度、风格和格式,让胜负主要来自证据正确性和推理质量,而不是更长或更像模板。