统一生成理解多模态模型做下游微调时，如何为分类、VQA、OCR、定位和生成任务设计统一样本格式，同时保留各任务的专属监督，并控制混训比例、数据质量和能力退化风险？｜百度算法面经解析

60 秒回答模板

统一生成理解多模态模型的微调数据要把分类、问答、描述、定位、OCR、生成和编辑等任务统一成模型可学习的指令格式，同时保留各任务的监督信号和评估口径。统一输入输出格式：把图像/视频/文本输入、任务指令、约束条件和目标输出标准化。理解任务可以输出标签、坐标、文本答案，生成任务可以输出描述、编辑指令或结构化结果。保留任务特有监督：定位任务需要框或区域，OCR 需要文本和位置，VQA 需要答案和证据，生成任务需要质量偏好或参考。统一格式不能抹掉关键监督。数据混合要控比例：按任务价值、数据质量、难度和业务目标设置采样比例。高资源任务过多会挤压低资源能力，生成任务过多可能影响理解稳定性。质量清洗和去偏：要清理图文不匹配、标注错误、重复样本、低清图、OCR 噪声、安全风险和模板化过强样本，并控制来源偏差。评测按能力拆分：统一模型不能只看综合分。要分别评估图文理解、OCR、定位、长文本生成、视觉推理、安全和多任务干扰，识别某类任务是否被混合训练伤害。最后要把方案落到可验证的指标、失败兜底和迭代闭环上。面试里不要只讲概念名词，要说明边界、取舍、数据来源、线上观测和出问题后的回滚或人工介入。

考点 格式统一

难度 真实面经题

回答目标 展示你能从数据工程和训练目标角度设计多模态统一模型微调集。

深入解析

统一输入输出格式

把图像/视频/文本输入、任务指令、约束条件和目标输出标准化。理解任务可以输出标签、坐标、文本答案，生成任务可以输出描述、编辑指令或结构化结果。

保留任务特有监督

定位任务需要框或区域，OCR 需要文本和位置，VQA 需要答案和证据，生成任务需要质量偏好或参考。统一格式不能抹掉关键监督。

数据混合要控比例

按任务价值、数据质量、难度和业务目标设置采样比例。高资源任务过多会挤压低资源能力，生成任务过多可能影响理解稳定性。

质量清洗和去偏

要清理图文不匹配、标注错误、重复样本、低清图、OCR 噪声、安全风险和模板化过强样本，并控制来源偏差。

评测按能力拆分

统一模型不能只看综合分。要分别评估图文理解、OCR、定位、长文本生成、视觉推理、安全和多任务干扰，识别某类任务是否被混合训练伤害。

易错点

把所有数据简单拼接，不设计任务格式和采样比例。
统一格式时丢掉定位、证据等关键监督。
只清洗文本，不检查图文是否匹配。
只看总分，不看某些下游任务是否退化。
忽略安全和版权等数据风险。

面试官追问

理解和生成任务混训会有什么风险？

风险是目标冲突和能力干扰。生成任务可能鼓励更自由表达，理解任务要求精确，需用采样比例和任务模板控制。

如何处理不同任务输出格式差异？

用统一外层指令和结构化输出规范，同时保留任务内部字段，例如答案、坐标、证据、编辑结果和安全标签。

数据质量最影响什么？

图文匹配、标注准确和任务指令清晰会直接影响模型是否学到正确跨模态对齐，噪声会放大幻觉和误定位。

如何判断混合比例合理？

通过分任务验证集和消融实验观察各能力曲线，找到目标业务能力提升且其他关键能力不明显退化的比例。