数据集是如何构建和评测的？｜高频面试题解析

60 秒回答模板

我会先明确数据集服务的任务和目标指标，比如分类、生成、排序、RAG 或安全评测。构建时先确定数据来源和采样策略，做去重、脱敏、清洗、格式标准化和版权/合规检查；标注阶段设计标注规范、样例、质检和一致性评估；划分时避免数据泄漏，按时间、用户、query 或场景切 train/validation/test；评测时同时看覆盖率、难度分布、标签一致性、噪声率、切片表现和基线模型效果。上线后还要根据 bad case、漂移和新业务场景持续补数据。

考点 目标决定数据

难度 真实面经题

回答目标 讲清方法、取舍和追问

深入解析

先定义任务目标

不同任务需要不同数据结构。分类需要标签体系，排序需要偏好或点击反馈，生成模型需要指令和参考答案，RAG 还需要 query、文档和答案引用关系。

采集和清洗数据

数据来源要可追溯，采样要覆盖核心场景和长尾。清洗包括去重、过滤低质样本、脱敏、格式统一、语言检测、长度控制和异常样本处理。

标注和质检

标注规范要明确边界和反例，重要样本可多标并计算一致性。低一致性样本要复审，标注员偏差和模糊标签会直接限制模型上限。

划分防泄漏

训练、验证和测试集不能有重复样本、同源改写或未来信息泄漏。业务数据常按时间、用户、会话、query 或文档分组切分，保证评测接近真实上线。

评测数据质量

数据集本身要评估覆盖率、类别分布、难例比例、噪声率、切片均衡、合规风险和基线模型表现。模型指标异常时要回到数据切片定位原因。

易错点

不要只说多收集数据，数据来源、标注规范和质检同样关键。
不要随机切分所有样本，真实业务中很容易发生同源泄漏。
不要只看总体准确率，数据集评测必须看切片和长尾覆盖。
不要忽略脱敏、版权和合规，真实业务数据不能直接裸用。

面试官追问

怎么判断数据集质量好不好？

看覆盖核心场景的程度、标签一致性、噪声率、重复率、类别均衡、难例比例、合规风险，以及基线模型在关键切片上的表现。

如何避免训练测试泄漏？

对相似样本、同一用户、同一 query、同一文档或同一时间窗口做分组切分，避免改写样本或未来信息同时出现在训练和测试中。

数据集上线后还要做什么？

持续收集 bad case、漂移样本和新场景样本，定期复标和重训，并维护版本、来源、标注规范和评测报告。