真实面经题目 · 原创解析
在一个文档中,如何筛选出对一个综合场景大模型的微调数据?
从单个文档筛选综合场景大模型微调数据,关键是把原始内容变成高质量、多任务、可验证、去噪去重的指令样本。回答要覆盖场景定义、片段切分、样本构造、质量过滤、分布配比和评测闭环。
真实面经题目 · 原创解析
从单个文档筛选综合场景大模型微调数据,关键是把原始内容变成高质量、多任务、可验证、去噪去重的指令样本。回答要覆盖场景定义、片段切分、样本构造、质量过滤、分布配比和评测闭环。
我会先定义综合场景需要覆盖哪些能力,比如问答、摘要、抽取、改写、推理和安全边界;然后对文档做结构解析和语义切分,保留信息完整的片段;再把片段构造成 instruction、input、output 或偏好对;之后做质量过滤,包括去重、事实一致性、长度控制、敏感内容、低信息密度和格式错误;最后按任务、难度、领域和用户意图做配比,并用验证集和人工抽检评估微调收益。
综合场景不是把文档全部塞进训练集,而是先明确模型要提升哪些能力。常见维度包括领域问答、摘要、结构化抽取、分类、改写、多轮追问和拒答边界,任务定义决定后续样本构造方式。
文档需要先做标题、段落、表格、列表和引用的结构化解析,再按语义完整性切分。片段太短会缺上下文,太长会引入噪声和训练成本,通常要保留可回答问题所需的最小完整上下文。
可以把同一片段转成多种样本:事实问答、摘要、要点提取、格式转换、反向提问或偏好比较。关键是 output 必须能从文档证据推出,不能让生成脚本编造文档里没有的结论。
筛选时要去重、去模板化、去低信息密度样本,检查事实一致性、格式合法性、长度分布和敏感内容。最后按任务、难度、主题和长度做配比,避免某类简单样本压倒高价值样本。
数据筛选不是一次性动作。需要留出验证集,观察指令遵循、事实性、领域准确率和安全性;对坏例回溯到原文片段和样本构造规则,再迭代过滤器和样本模板。
它应该任务明确、上下文足够、答案可验证、格式稳定、信息密度高,并且能覆盖目标场景中的真实用户意图,而不是模板化或重复样本。
要保留来源位置和时间等元信息,优先构造能表达不确定性或冲突来源的样本;无法判定的内容不应生成确定性答案。
需要控制重复样本、增加任务多样性、保留通用能力评测,并用验证集观察泛化。必要时结合 RAG,让模型学习任务格式而不是记忆全部事实。