训练 Qwen 这类大语言模型时，训练数据集如何设计才能兼顾质量、多样性和覆盖度？｜高频面试题解析

60 秒回答模板

训练 Qwen 这类大语言模型时，我会先把数据集设计成能力目标驱动的问题：模型需要覆盖通用语言、多语言、代码、数学、知识问答、长文本、指令遵循和安全边界，不同能力对应不同来源、质量门槛和采样权重。质量上要做去重、低质过滤、PII 和有害内容处理、格式规范、语言识别、样本可解析性检查，还要控制 benchmark 污染，避免模型靠记忆刷分。多样性和覆盖度上要看语言、领域、任务形态、难度、长度、风格和长尾主题分布，不能只保留高置信的主流文本，否则模型会变窄。配比上通常用数据 mixture 和 curriculum 做迭代，通过 held-out loss、能力切片评测、污染检测、人工抽检和消融实验判断某类数据增减是否真正提升目标能力。最后要版本化记录数据来源、过滤规则、采样权重和评测结果，这样训练掉点或能力偏差才能追溯。

考点 能力地图驱动数据设计

难度 真实面经题

回答目标让候选人能把训练数据设计讲成可执行的数据治理系统：有能力目标、质量门禁、分布覆盖、配比取舍、失败模式和评测回溯，而不是停留在多收集高质量数据。

深入解析

先把数据目标拆成能力地图

大模型训练数据不是一个只追求规模的语料池，而是服务一组能力目标的混合数据。回答时可以先列出能力轴：通用语言理解与生成、多语言、代码、数学推理、事实知识、长上下文、对话指令、安全拒答、少量领域知识等。每个能力轴都要对应数据来源、样本形态、难度分布和评测切片，否则所谓覆盖度无法被验证。

质量控制要覆盖内容、格式和污染

质量不是只删脏词。典型处理包括文档解析质量检查、乱码和模板页过滤、语言识别、重复段落和近重复文档去重、低信息密度过滤、广告和采集噪声过滤、PII 与有害内容治理、许可证和来源合规检查。对大模型还要特别做 benchmark contamination 检查，避免训练集中出现公开评测题答案，导致评测分数虚高。

多样性需要防止过度清洗造成数据变窄

高质量过滤越强，越容易只剩百科、教材、主流网页和标准书面语，模型会在长尾话题、口语表达、低资源语言、真实用户噪声和非常规任务上变弱。因此多样性要用可量化分布来约束，例如语言比例、领域比例、长度分布、文体、任务类型、难度层级、时间跨度和来源类型，并通过分层采样保留足够长尾，而不是把所有低频样本当噪声删掉。

覆盖度靠数据配比和训练阶段共同实现

同一批数据在不同训练阶段的价值不同。预训练阶段更重视广覆盖和基础语言建模，后续指令训练或偏好对齐更重视任务格式、回答质量和安全行为。数据 mixture 的权重不能拍脑袋定，要通过小规模预实验、能力切片、训练 loss 曲线和下游任务表现迭代；某类数据过采样可能提升局部能力，也可能带来风格偏置、灾难性遗忘或其他能力掉点。

合成数据和人工数据要设质量护栏

大语言模型训练常会使用合成指令、推理链、对话改写或弱监督数据来补齐长尾能力，但合成数据容易产生模板化表达、错误推理、自我强化和 teacher 偏差。更稳妥的做法是把合成数据放进单独版本和单独配比，配合规则校验、模型打分、人工抽检、去模板化、难度分层和真实任务回放，确认它补的是缺口而不是污染主干数据。

评测闭环决定数据设计是否有效

数据集设计必须能被验证。除了 overall loss 和通用 benchmark，要有按语言、领域、任务、难度、长度、安全风险、事实性和代码/数学等维度拆开的 slice 指标；同时记录每次数据版本的来源清单、过滤规则、去重阈值、采样权重和训练结果。若某次模型在特定切片掉点，可以回溯是数据覆盖不足、过滤过强、污染、配比变化还是评测分布变化。

易错点

只说扩大数据规模，没说明质量、多样性和覆盖度如何被定义和度量。
把训练数据设计讲成普通 SFT 样本清洗，忽略预训练 mixture、长尾覆盖和 benchmark 污染。
认为过滤越严格越好，没有意识到过度过滤会损失低资源语言、口语噪声和真实用户分布。
把合成数据当作无成本增益，没有说明 teacher 偏差、模板化和错误链条会被模型学习。
只看总体 benchmark 分数，不拆语言、领域、任务、长度、安全和难度切片。
声称 Qwen 内部一定采用某个具体数据来源或配比，但来源只支持通用训练数据设计问题。

面试官追问

如何判断某类训练数据应该增权还是降权？

不能只看该类数据自己的 loss，要看目标能力切片是否提升、其他能力是否回退、输出风格是否偏移、训练是否稳定。更可靠的方法是做小规模 mixture 消融，对比固定训练预算下的 slice 指标、人工评审和污染检查结果。

去重为什么对大模型训练特别重要？

重复数据会浪费 token 预算，让模型过度记忆高频内容，还可能放大某些来源或观点的权重。近重复的评测题进入训练集还会造成 benchmark 污染，使泛化能力被高估。

质量过滤越严格是不是越好？

不是。过滤太松会保留噪声、错误和风险内容；过滤太严会删除口语、低资源语言、长尾场景和真实用户输入形态，导致模型覆盖变窄。需要用分布统计和切片评测找平衡。

合成数据适合补哪些能力？

适合补真实数据稀缺但可验证的任务，例如指令格式、多轮改写、特定推理步骤、代码解释和安全拒答样例。但要防止模板化、错误推理和 teacher 偏差，最好单独评估它对目标切片和整体能力的影响。

如何控制评测集污染？

要对公开 benchmark、题库、参考答案做 exact 和 near-duplicate 检索，检查训练语料中是否出现题目、答案或高度相似改写；同时保留私有 holdout 和时间后验评测，避免模型只记住公开题。