多模态或大模型微调数据做质量过滤时，如何选择过滤模型和质量标准？｜高频面试题解析

60 秒回答模板

质量过滤不能只问用哪个大模型，而要先定义质量标准，再选择成本合适的过滤链路。我会把标准分成几类：文本是否完整、无乱码、无模板污染；图片是否清晰、主体可见、无重复和低质压缩；图文是否语义一致；答案是否安全合规、事实可靠、格式符合任务；样本是否有多样性和难度。模型选择上，第一层用规则、去重、语言识别、OCR 和安全分类器做便宜过滤；第二层用 CLIP 类图文匹配、检测/OCR/分类模型做跨模态一致性检查；第三层用任务模型、reward model 或 LLM-as-judge 评估回答质量、指令遵循和推理正确性；最后保留人工抽检和分桶回归。面试重点是说明过滤是多级体系，要平衡精度、召回、成本和偏差，不要把一个 judge 分数当成全部质量。

考点 先有标准

难度 真实面经题

回答目标 讲清多模态数据质量过滤标准

深入解析

先定义质量标准

质量不是单一分数。预训练图文对重视图文一致、覆盖面和低噪声；SFT 数据重视指令清晰、答案正确、格式稳定；偏好数据重视可比较性和标注一致；多模态数据还要检查图片可见性、OCR、对象属性和安全风险。

便宜过滤先挡脏数据

第一层通常用规则和轻量模型：长度、语言、编码乱码、重复、模板污染、URL/广告、低清图片、空图、NSFW/涉政涉暴、PII、OCR 可读性和哈希去重。这一层目标是高吞吐、低成本，先清掉明显不可用样本。

跨模态模型看一致性

多模态数据要判断图片和文本是否真的对应。可以用 CLIP 类图文匹配分数、图像分类/检测/OCR 与文本实体属性比对、captioning 反向生成后一致性检查，找出图文错配、标题党、只描述局部或文本描述了图片中不存在内容的样本。

强模型评估高价值样本

对 SFT、复杂推理或高风险类目，可以用任务专用 teacher、reward model、LLM judge 或 MLLM judge 评估答案正确性、指令遵循、解释完整性和安全性。强模型成本高，适合放在后段做精排、抽检或困难样本复审。

阈值要按目标调

过滤阈值不是越严格越好。预训练可能更需要规模和多样性，后训练更需要高精度和格式一致。应按类目、语言、难度、风险和数据来源分桶设阈值，并用人工标注集估计误杀率、漏放率和偏差。

闭环比单次过滤重要

最终要把过滤结果和训练收益关联起来：看训练 loss、下游 benchmark、人工评测、幻觉率、安全拦截、格式错误率和线上回归。发现过滤器偏差后要更新标注集、重训质量模型和调整采样策略。

易错点

直接回答用某个大模型过滤，没有先定义质量标准和任务目标。
把多模态过滤等同于文本清洗，漏掉图片质量、OCR、图文一致性和安全风险。
所有样本都用强 LLM judge，忽略成本、吞吐和可扩展性。
阈值一刀切，导致长尾、多语言、困难样本和少数类被误杀。
只看过滤后数据更干净，不做训练 ablation 和人工抽检证明收益。
编造字节内部质量模型、数据比例或线上阈值。

面试官追问

质量过滤为什么不能只用 LLM judge？

LLM judge 成本高、延迟大，也可能有偏好和校准问题。明显脏数据用规则和小模型过滤更划算，LLM judge 更适合后段评估复杂语义、指令遵循和答案质量。

多模态数据怎么判断图文是否匹配？

可以结合 CLIP 相似度、图像检测/分类结果与文本实体比对、OCR 与文本一致性、caption 反向生成和 MLLM 判别，重点识别错配、缺主体、文本描述了图片中不存在内容等问题。

过滤阈值如何确定？

先做人工标注验证集，按来源、语言、类目、风险和任务分桶画 precision/recall 曲线，再结合训练收益和误杀成本选阈值。高风险数据可更严，长尾和预训练数据不宜一刀切。

如何验证过滤真的提升了模型？

做 ablation：原始数据、规则过滤、模型过滤、强 judge 过滤分别训练或微调，比较下游任务、人工评测、幻觉率、安全率、格式错误率和长尾覆盖，避免只看过滤器分数。