60 秒回答模板

质量过滤不能只问用哪个大模型,而要先定义质量标准,再选择成本合适的过滤链路。我会把标准分成几类:文本是否完整、无乱码、无模板污染;图片是否清晰、主体可见、无重复和低质压缩;图文是否语义一致;答案是否安全合规、事实可靠、格式符合任务;样本是否有多样性和难度。模型选择上,第一层用规则、去重、语言识别、OCR 和安全分类器做便宜过滤;第二层用 CLIP 类图文匹配、检测/OCR/分类模型做跨模态一致性检查;第三层用任务模型、reward model 或 LLM-as-judge 评估回答质量、指令遵循和推理正确性;最后保留人工抽检和分桶回归。面试重点是说明过滤是多级体系,要平衡精度、召回、成本和偏差,不要把一个 judge 分数当成全部质量。

考点 先有标准
难度 真实面经题
回答目标 讲清多模态数据质量过滤标准

深入解析

01

先定义质量标准

质量不是单一分数。预训练图文对重视图文一致、覆盖面和低噪声;SFT 数据重视指令清晰、答案正确、格式稳定;偏好数据重视可比较性和标注一致;多模态数据还要检查图片可见性、OCR、对象属性和安全风险。

02

便宜过滤先挡脏数据

第一层通常用规则和轻量模型:长度、语言、编码乱码、重复、模板污染、URL/广告、低清图片、空图、NSFW/涉政涉暴、PII、OCR 可读性和哈希去重。这一层目标是高吞吐、低成本,先清掉明显不可用样本。

03

跨模态模型看一致性

多模态数据要判断图片和文本是否真的对应。可以用 CLIP 类图文匹配分数、图像分类/检测/OCR 与文本实体属性比对、captioning 反向生成后一致性检查,找出图文错配、标题党、只描述局部或文本描述了图片中不存在内容的样本。

04

强模型评估高价值样本

对 SFT、复杂推理或高风险类目,可以用任务专用 teacher、reward model、LLM judge 或 MLLM judge 评估答案正确性、指令遵循、解释完整性和安全性。强模型成本高,适合放在后段做精排、抽检或困难样本复审。

05

阈值要按目标调

过滤阈值不是越严格越好。预训练可能更需要规模和多样性,后训练更需要高精度和格式一致。应按类目、语言、难度、风险和数据来源分桶设阈值,并用人工标注集估计误杀率、漏放率和偏差。

06

闭环比单次过滤重要

最终要把过滤结果和训练收益关联起来:看训练 loss、下游 benchmark、人工评测、幻觉率、安全拦截、格式错误率和线上回归。发现过滤器偏差后要更新标注集、重训质量模型和调整采样策略。

易错点

  • 直接回答用某个大模型过滤,没有先定义质量标准和任务目标。
  • 把多模态过滤等同于文本清洗,漏掉图片质量、OCR、图文一致性和安全风险。
  • 所有样本都用强 LLM judge,忽略成本、吞吐和可扩展性。
  • 阈值一刀切,导致长尾、多语言、困难样本和少数类被误杀。
  • 只看过滤后数据更干净,不做训练 ablation 和人工抽检证明收益。
  • 编造字节内部质量模型、数据比例或线上阈值。

面试官追问

质量过滤为什么不能只用 LLM judge?

LLM judge 成本高、延迟大,也可能有偏好和校准问题。明显脏数据用规则和小模型过滤更划算,LLM judge 更适合后段评估复杂语义、指令遵循和答案质量。

多模态数据怎么判断图文是否匹配?

可以结合 CLIP 相似度、图像检测/分类结果与文本实体比对、OCR 与文本一致性、caption 反向生成和 MLLM 判别,重点识别错配、缺主体、文本描述了图片中不存在内容等问题。

过滤阈值如何确定?

先做人工标注验证集,按来源、语言、类目、风险和任务分桶画 precision/recall 曲线,再结合训练收益和误杀成本选阈值。高风险数据可更严,长尾和预训练数据不宜一刀切。

如何验证过滤真的提升了模型?

做 ablation:原始数据、规则过滤、模型过滤、强 judge 过滤分别训练或微调,比较下游任务、人工评测、幻觉率、安全率、格式错误率和长尾覆盖,避免只看过滤器分数。