真实面经题目 · 原创解析
数据集是如何构建和评测的?
数据集构建和评测题考察的是训练数据闭环。高质量回答要覆盖目标定义、数据采集、清洗标注、划分、质量评估、偏差检查、基线验证和持续迭代。
我会先明确数据集服务的任务和目标指标,比如分类、生成、排序、RAG 或安全评测。构建时先确定数据来源和采样策略,做去重、脱敏、清洗、格式标准化和版权/合规检查;标注阶段设计标注规范、样例、质检和一致性评估;划分时避免数据泄漏,按时间、用户、query 或场景切 train/validation/test;评测时同时看覆盖率、难度分布、标签一致性、噪声率、切片表现和基线模型效果。上线后还要根据 bad case、漂移和新业务场景持续补数据。
不同任务需要不同数据结构。分类需要标签体系,排序需要偏好或点击反馈,生成模型需要指令和参考答案,RAG 还需要 query、文档和答案引用关系。
数据来源要可追溯,采样要覆盖核心场景和长尾。清洗包括去重、过滤低质样本、脱敏、格式统一、语言检测、长度控制和异常样本处理。
标注规范要明确边界和反例,重要样本可多标并计算一致性。低一致性样本要复审,标注员偏差和模糊标签会直接限制模型上限。
训练、验证和测试集不能有重复样本、同源改写或未来信息泄漏。业务数据常按时间、用户、会话、query 或文档分组切分,保证评测接近真实上线。
数据集本身要评估覆盖率、类别分布、难例比例、噪声率、切片均衡、合规风险和基线模型表现。模型指标异常时要回到数据切片定位原因。
看覆盖核心场景的程度、标签一致性、噪声率、重复率、类别均衡、难例比例、合规风险,以及基线模型在关键切片上的表现。
对相似样本、同一用户、同一 query、同一文档或同一时间窗口做分组切分,避免改写样本或未来信息同时出现在训练和测试中。
持续收集 bad case、漂移样本和新场景样本,定期复标和重训,并维护版本、来源、标注规范和评测报告。