真实面经题目 · 原创解析
多模态或大模型微调数据做质量过滤时,如何选择过滤模型和质量标准?
这题考数据质量治理,而不是问某家公司内部过滤器。回答要从规则、专用模型、跨模态一致性模型、LLM judge/reward model 和人工抽检的组合讲起。
质量过滤不能只问用哪个大模型,而要先定义质量标准,再选择成本合适的过滤链路。我会把标准分成几类:文本是否完整、无乱码、无模板污染;图片是否清晰、主体可见、无重复和低质压缩;图文是否语义一致;答案是否安全合规、事实可靠、格式符合任务;样本是否有多样性和难度。模型选择上,第一层用规则、去重、语言识别、OCR 和安全分类器做便宜过滤;第二层用 CLIP 类图文匹配、检测/OCR/分类模型做跨模态一致性检查;第三层用任务模型、reward model 或 LLM-as-judge 评估回答质量、指令遵循和推理正确性;最后保留人工抽检和分桶回归。面试重点是说明过滤是多级体系,要平衡精度、召回、成本和偏差,不要把一个 judge 分数当成全部质量。
质量不是单一分数。预训练图文对重视图文一致、覆盖面和低噪声;SFT 数据重视指令清晰、答案正确、格式稳定;偏好数据重视可比较性和标注一致;多模态数据还要检查图片可见性、OCR、对象属性和安全风险。
第一层通常用规则和轻量模型:长度、语言、编码乱码、重复、模板污染、URL/广告、低清图片、空图、NSFW/涉政涉暴、PII、OCR 可读性和哈希去重。这一层目标是高吞吐、低成本,先清掉明显不可用样本。
多模态数据要判断图片和文本是否真的对应。可以用 CLIP 类图文匹配分数、图像分类/检测/OCR 与文本实体属性比对、captioning 反向生成后一致性检查,找出图文错配、标题党、只描述局部或文本描述了图片中不存在内容的样本。
对 SFT、复杂推理或高风险类目,可以用任务专用 teacher、reward model、LLM judge 或 MLLM judge 评估答案正确性、指令遵循、解释完整性和安全性。强模型成本高,适合放在后段做精排、抽检或困难样本复审。
过滤阈值不是越严格越好。预训练可能更需要规模和多样性,后训练更需要高精度和格式一致。应按类目、语言、难度、风险和数据来源分桶设阈值,并用人工标注集估计误杀率、漏放率和偏差。
最终要把过滤结果和训练收益关联起来:看训练 loss、下游 benchmark、人工评测、幻觉率、安全拦截、格式错误率和线上回归。发现过滤器偏差后要更新标注集、重训质量模型和调整采样策略。
LLM judge 成本高、延迟大,也可能有偏好和校准问题。明显脏数据用规则和小模型过滤更划算,LLM judge 更适合后段评估复杂语义、指令遵循和答案质量。
可以结合 CLIP 相似度、图像检测/分类结果与文本实体比对、OCR 与文本一致性、caption 反向生成和 MLLM 判别,重点识别错配、缺主体、文本描述了图片中不存在内容等问题。
先做人工标注验证集,按来源、语言、类目、风险和任务分桶画 precision/recall 曲线,再结合训练收益和误杀成本选阈值。高风险数据可更严,长尾和预训练数据不宜一刀切。
做 ablation:原始数据、规则过滤、模型过滤、强 judge 过滤分别训练或微调,比较下游任务、人工评测、幻觉率、安全率、格式错误率和长尾覆盖,避免只看过滤器分数。