真实面经题目 · 原创解析

在一个文档中,如何筛选出对一个综合场景大模型的微调数据?

从单个文档筛选综合场景大模型微调数据,关键是把原始内容变成高质量、多任务、可验证、去噪去重的指令样本。回答要覆盖场景定义、片段切分、样本构造、质量过滤、分布配比和评测闭环。

出现于:滴滴 · 算法

60 秒回答模板

我会先定义综合场景需要覆盖哪些能力,比如问答、摘要、抽取、改写、推理和安全边界;然后对文档做结构解析和语义切分,保留信息完整的片段;再把片段构造成 instruction、input、output 或偏好对;之后做质量过滤,包括去重、事实一致性、长度控制、敏感内容、低信息密度和格式错误;最后按任务、难度、领域和用户意图做配比,并用验证集和人工抽检评估微调收益。

考点 先定能力
难度 算法岗真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

定义场景覆盖

综合场景不是把文档全部塞进训练集,而是先明确模型要提升哪些能力。常见维度包括领域问答、摘要、结构化抽取、分类、改写、多轮追问和拒答边界,任务定义决定后续样本构造方式。

02

解析和切分文档

文档需要先做标题、段落、表格、列表和引用的结构化解析,再按语义完整性切分。片段太短会缺上下文,太长会引入噪声和训练成本,通常要保留可回答问题所需的最小完整上下文。

03

构造训练样本

可以把同一片段转成多种样本:事实问答、摘要、要点提取、格式转换、反向提问或偏好比较。关键是 output 必须能从文档证据推出,不能让生成脚本编造文档里没有的结论。

04

质量过滤和配比

筛选时要去重、去模板化、去低信息密度样本,检查事实一致性、格式合法性、长度分布和敏感内容。最后按任务、难度、主题和长度做配比,避免某类简单样本压倒高价值样本。

05

评测闭环

数据筛选不是一次性动作。需要留出验证集,观察指令遵循、事实性、领域准确率和安全性;对坏例回溯到原文片段和样本构造规则,再迭代过滤器和样本模板。

易错点

  • 不要把文档切块后直接全部训练,未过滤的数据会放大噪声和幻觉。
  • 不要让样本输出包含文档中没有的推断结论。
  • 不要只追求样本数量,任务覆盖、难度分布和可验证性更重要。
  • 不要忘记留验证集,否则无法判断数据筛选是否真正提升目标能力。

面试官追问

如何判断一条微调样本质量高?

它应该任务明确、上下文足够、答案可验证、格式稳定、信息密度高,并且能覆盖目标场景中的真实用户意图,而不是模板化或重复样本。

文档里有冲突信息怎么办?

要保留来源位置和时间等元信息,优先构造能表达不确定性或冲突来源的样本;无法判定的内容不应生成确定性答案。

如何避免微调后模型只会背文档?

需要控制重复样本、增加任务多样性、保留通用能力评测,并用验证集观察泛化。必要时结合 RAG,让模型学习任务格式而不是记忆全部事实。