NLP 中 EDA 数据增强有哪些操作，什么时候会伤害语义和标签一致性？｜小米算法面经解析

60 秒回答模板

EDA 是一组轻量文本增强方法，常见有同义词替换、随机插入、随机交换、随机删除，目标是在不改变标签的前提下制造表述扰动，提高模型鲁棒性。它更适合小数据集、分类任务和标签由整体语义决定的短文本。风险是增强会改变语义或标签：替换否定词、情感词、实体名、数字、时间、领域术语，或在意图识别、关系抽取、NLI 等任务里打乱顺序，都可能改变标签。工程上要控制增强比例和扰动强度，保护关键词、实体、数字、否定词和槽位；增强只用于训练集，不能污染验证/测试集；高风险任务要做人审或语义一致性过滤，并通过鲁棒性集和线上指标验证。

考点 标签不变是底线

难度 真实面经题

回答目标 讲清 EDA 的方法、适用前提、标签一致性风险和工程验证手段。

深入解析

常见操作

EDA 通常包括 synonym replacement、random insertion、random swap、random deletion。它的优势是实现简单、成本低，不需要额外生成模型，适合在数据较少时增加表述多样性。

适用前提

增强后标签必须不变。整体情感分类、粗粒度主题分类、短文本鲁棒性训练等场景较适合；如果标签依赖某个精确词、实体、数字、顺序或逻辑关系，就要非常谨慎。

语义漂移风险

否定词、程度词、情感词、实体名、时间、金额和领域术语被替换或删除，可能直接改变事实。例如“不是很好”删掉“不是”后情感极性反转；医疗、法律、金融文本中一个词也可能改变结论。

标签一致性风险

意图识别中的槽位、关系抽取中的实体顺序、自然语言推理中的前提和假设方向，都可能被随机交换或删除破坏。无约束 EDA 会把错误标签样本灌进训练集。

工程控制

控制增强比例、替换概率和每句最大扰动数；保护关键实体、数字、否定词和标签触发词；对增强样本做语言流畅性、语义相似度或人工抽检；增强样本只进入训练集。

评估方式

比较增强前后的验证 F1、少数类召回、鲁棒性测试和错误类型。还要检查训练集是否噪声变多、是否过拟合增强模式，以及真实线上样本是否受益。

易错点

把验证集和测试集也做增强，导致评估失真。
不保护否定词、实体、数字、时间和标签关键词。
增强比例过高，引入大量噪声标签。
使用低质量同义词词典，让句子不通顺或语义漂移。
只看训练集准确率提升，不看真实验证集、少数类和线上鲁棒性。

面试官追问

EDA 和回译增强有什么区别？

EDA 是词级随机扰动，成本低但容易不自然；回译通过翻译再翻译生成句式变化，流畅性通常更好但成本更高，也可能改变细节或实体。两者都要验证标签一致性。

如何控制增强不改变标签？

保护实体、数字、否定词、情感词和槽位；限制扰动比例；用语义相似度、规则或分类器过滤；对高风险样本人工抽检。必要时只对非关键区域做改写。

为什么不能增强验证集？

验证集用于估计真实泛化能力。增强验证集会改变评估分布，甚至把训练增强规则带进评估，导致指标不能反映线上真实表现。

在意图识别中要保护什么？

要保护 slot、实体名、时间、地点、数字、动作词和否定词。比如“取消明天上海的票”和“购买明天上海的票”只差关键动词，随机替换会直接改变意图。