60 秒回答模板

我会先明确数据集服务的任务和目标指标,比如分类、生成、排序、RAG 或安全评测。构建时先确定数据来源和采样策略,做去重、脱敏、清洗、格式标准化和版权/合规检查;标注阶段设计标注规范、样例、质检和一致性评估;划分时避免数据泄漏,按时间、用户、query 或场景切 train/validation/test;评测时同时看覆盖率、难度分布、标签一致性、噪声率、切片表现和基线模型效果。上线后还要根据 bad case、漂移和新业务场景持续补数据。

考点 目标决定数据
难度 真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

先定义任务目标

不同任务需要不同数据结构。分类需要标签体系,排序需要偏好或点击反馈,生成模型需要指令和参考答案,RAG 还需要 query、文档和答案引用关系。

02

采集和清洗数据

数据来源要可追溯,采样要覆盖核心场景和长尾。清洗包括去重、过滤低质样本、脱敏、格式统一、语言检测、长度控制和异常样本处理。

03

标注和质检

标注规范要明确边界和反例,重要样本可多标并计算一致性。低一致性样本要复审,标注员偏差和模糊标签会直接限制模型上限。

04

划分防泄漏

训练、验证和测试集不能有重复样本、同源改写或未来信息泄漏。业务数据常按时间、用户、会话、query 或文档分组切分,保证评测接近真实上线。

05

评测数据质量

数据集本身要评估覆盖率、类别分布、难例比例、噪声率、切片均衡、合规风险和基线模型表现。模型指标异常时要回到数据切片定位原因。

易错点

  • 不要只说多收集数据,数据来源、标注规范和质检同样关键。
  • 不要随机切分所有样本,真实业务中很容易发生同源泄漏。
  • 不要只看总体准确率,数据集评测必须看切片和长尾覆盖。
  • 不要忽略脱敏、版权和合规,真实业务数据不能直接裸用。

面试官追问

怎么判断数据集质量好不好?

看覆盖核心场景的程度、标签一致性、噪声率、重复率、类别均衡、难例比例、合规风险,以及基线模型在关键切片上的表现。

如何避免训练测试泄漏?

对相似样本、同一用户、同一 query、同一文档或同一时间窗口做分组切分,避免改写样本或未来信息同时出现在训练和测试中。

数据集上线后还要做什么?

持续收集 bad case、漂移样本和新场景样本,定期复标和重训,并维护版本、来源、标注规范和评测报告。