在一个文档中，如何筛选出对一个综合场景大模型的微调数据？｜滴滴算法面经解析

60 秒回答模板

我会先定义综合场景需要覆盖哪些能力，比如问答、摘要、抽取、改写、推理和安全边界；然后对文档做结构解析和语义切分，保留信息完整的片段；再把片段构造成 instruction、input、output 或偏好对；之后做质量过滤，包括去重、事实一致性、长度控制、敏感内容、低信息密度和格式错误；最后按任务、难度、领域和用户意图做配比，并用验证集和人工抽检评估微调收益。

考点 先定能力

难度 算法岗真实面经题

回答目标 讲清方法、取舍和追问

深入解析

定义场景覆盖

综合场景不是把文档全部塞进训练集，而是先明确模型要提升哪些能力。常见维度包括领域问答、摘要、结构化抽取、分类、改写、多轮追问和拒答边界，任务定义决定后续样本构造方式。

解析和切分文档

文档需要先做标题、段落、表格、列表和引用的结构化解析，再按语义完整性切分。片段太短会缺上下文，太长会引入噪声和训练成本，通常要保留可回答问题所需的最小完整上下文。

构造训练样本

可以把同一片段转成多种样本：事实问答、摘要、要点提取、格式转换、反向提问或偏好比较。关键是 output 必须能从文档证据推出，不能让生成脚本编造文档里没有的结论。

质量过滤和配比

筛选时要去重、去模板化、去低信息密度样本，检查事实一致性、格式合法性、长度分布和敏感内容。最后按任务、难度、主题和长度做配比，避免某类简单样本压倒高价值样本。

评测闭环

数据筛选不是一次性动作。需要留出验证集，观察指令遵循、事实性、领域准确率和安全性；对坏例回溯到原文片段和样本构造规则，再迭代过滤器和样本模板。

易错点

不要把文档切块后直接全部训练，未过滤的数据会放大噪声和幻觉。
不要让样本输出包含文档中没有的推断结论。
不要只追求样本数量，任务覆盖、难度分布和可验证性更重要。
不要忘记留验证集，否则无法判断数据筛选是否真正提升目标能力。

面试官追问

如何判断一条微调样本质量高？

它应该任务明确、上下文足够、答案可验证、格式稳定、信息密度高，并且能覆盖目标场景中的真实用户意图，而不是模板化或重复样本。

文档里有冲突信息怎么办？

要保留来源位置和时间等元信息，优先构造能表达不确定性或冲突来源的样本；无法判定的内容不应生成确定性答案。

如何避免微调后模型只会背文档？

需要控制重复样本、增加任务多样性、保留通用能力评测，并用验证集观察泛化。必要时结合 RAG，让模型学习任务格式而不是记忆全部事实。