面向 VQA、图像描述、OCR、视频理解等多模态生成/理解任务，如何评估输出质量，并通过数据集质量控制与 GPT 辅助标注提升评测可靠性？｜MiniMax 算法面经解析

60 秒回答模板

多模态输出质量评估不能只看文本流畅度。模型答案必须被图像、视频或音频证据支持，并完成具体任务；同时评测集本身要高质量，否则自动指标、人评和模型裁判都会放大标注噪声或偏见。按任务拆评测目标：VQA 看答案准确和不可回答判断，图像描述看覆盖度和细节忠实，OCR 看文字识别和结构保留，视频理解看事件顺序、动作主体和时间定位。不同任务不能只汇成一个总分。输出要被模态证据支持：评估输出是否与视觉/音频证据一致，是否正确识别对象、文字、空间关系、时间顺序和细节。重点标注看错、漏看、过度推断和臆造不可见内容。幻觉安全单独统计：多模态幻觉包括编造不存在对象、错误身份、错误医学或金融结论、隐私推断和不安全建议。高风险样本、不可回答样本和安全拒答应单独成集，不能被普通样本平均分掩盖。评测集质量控制：数据集要做去重、图文匹配检查、标注一致性审查、难例挖掘、泄漏检测、任务分桶和版本管理。低质量样本会让模型看起来提升，实际只是学会评测集偏差或标注噪声。 GPT 辅助但要校准：GPT 可以辅助生成候选问题、清洗 caption、扩写 rubrics、初筛坏样本和产出模型裁判理由，但必须用人工抽检、金标集、跨模型裁判和一致性统计校准。不能让同源模型既生成数据又做最终裁判。自动人评线上闭环：自动指标可用于 OCR、分类、定位、caption 相似度和模型裁判，复杂主观质量仍需人工 rubric。线上看用户采纳、追问、纠错、投诉、任务完成和人工复核结果，badcase 再回流到评测集。最后要把方案落到可验证的指标、失败兜底和迭代闭环上。面试里不要只讲概念名词，要说明边界、取舍、数据来源、线上观测和出问题后的回滚或人工介入。

考点 任务分桶

难度 真实面经题

回答目标 展示你能设计多维、可落地的多模态输出质量评估方案。

深入解析

按任务拆评测目标

VQA 看答案准确和不可回答判断，图像描述看覆盖度和细节忠实，OCR 看文字识别和结构保留，视频理解看事件顺序、动作主体和时间定位。不同任务不能只汇成一个总分。

输出要被模态证据支持

评估输出是否与视觉/音频证据一致，是否正确识别对象、文字、空间关系、时间顺序和细节。重点标注看错、漏看、过度推断和臆造不可见内容。

幻觉安全单独统计

多模态幻觉包括编造不存在对象、错误身份、错误医学或金融结论、隐私推断和不安全建议。高风险样本、不可回答样本和安全拒答应单独成集，不能被普通样本平均分掩盖。

评测集质量控制

数据集要做去重、图文匹配检查、标注一致性审查、难例挖掘、泄漏检测、任务分桶和版本管理。低质量样本会让模型看起来提升，实际只是学会评测集偏差或标注噪声。

GPT 辅助但要校准

GPT 可以辅助生成候选问题、清洗 caption、扩写 rubrics、初筛坏样本和产出模型裁判理由，但必须用人工抽检、金标集、跨模型裁判和一致性统计校准。不能让同源模型既生成数据又做最终裁判。

自动人评线上闭环

自动指标可用于 OCR、分类、定位、caption 相似度和模型裁判，复杂主观质量仍需人工 rubric。线上看用户采纳、追问、纠错、投诉、任务完成和人工复核结果，badcase 再回流到评测集。

易错点

只看 caption 相似度或总体打分。
不区分视觉错误、语言错误和安全错误。
只评模型输出，不检查评测集和标注质量。
让模型裁判评估自己同源模型，缺少人工校准。
评测集没有不可回答和高风险样本。
只看离线榜单，不看真实用户纠错和投诉。

面试官追问

自动指标为什么不够？

多模态回答常有开放表达和主观质量，自动指标容易偏向表面相似。需要人工评审判断证据、可用性和安全。

如何评估幻觉率？

构造含干扰、遮挡、细粒度属性和不可回答样本，标注输出中无证据对象、错误关系和过度推断的比例。

GPT 辅助标注怎么避免带偏？

把 GPT 用作候选生成、清洗和初筛工具，而不是唯一真值来源。关键样本要人工复核，用金标集校准模型裁判，并避免同源模型自评。

人评 rubric 应包含什么？

包含证据一致性、事实正确、完整性、指令遵循、语言质量、安全合规和任务可用性，每项有清晰评分标准，并按任务类型给不同权重。

如何比较两个模型版本？

用固定离线集、盲评、人评胜率、自动指标和线上 A/B 共同判断，并按任务、难度、风险和错误类型分桶。