真实面经题目 · 原创解析

NLP 中 EDA 数据增强有哪些操作,什么时候会伤害语义和标签一致性?

这道题考察 NLP 数据增强的边界意识。EDA 的同义词替换、随机插入、交换和删除只在标签保持不变时有价值;对否定词、实体、数字、时间、领域术语、槽位和逻辑关系敏感的任务,盲目增强会制造噪声标签,导致验证和线上效果变差。

出现于:小米 · 算法

60 秒回答模板

EDA 是一组轻量文本增强方法,常见有同义词替换、随机插入、随机交换、随机删除,目标是在不改变标签的前提下制造表述扰动,提高模型鲁棒性。它更适合小数据集、分类任务和标签由整体语义决定的短文本。风险是增强会改变语义或标签:替换否定词、情感词、实体名、数字、时间、领域术语,或在意图识别、关系抽取、NLI 等任务里打乱顺序,都可能改变标签。工程上要控制增强比例和扰动强度,保护关键词、实体、数字、否定词和槽位;增强只用于训练集,不能污染验证/测试集;高风险任务要做人审或语义一致性过滤,并通过鲁棒性集和线上指标验证。

考点 标签不变是底线
难度 真实面经题
回答目标 讲清 EDA 的方法、适用前提、标签一致性风险和工程验证手段。

深入解析

01

常见操作

EDA 通常包括 synonym replacement、random insertion、random swap、random deletion。它的优势是实现简单、成本低,不需要额外生成模型,适合在数据较少时增加表述多样性。

02

适用前提

增强后标签必须不变。整体情感分类、粗粒度主题分类、短文本鲁棒性训练等场景较适合;如果标签依赖某个精确词、实体、数字、顺序或逻辑关系,就要非常谨慎。

03

语义漂移风险

否定词、程度词、情感词、实体名、时间、金额和领域术语被替换或删除,可能直接改变事实。例如“不是很好”删掉“不是”后情感极性反转;医疗、法律、金融文本中一个词也可能改变结论。

04

标签一致性风险

意图识别中的槽位、关系抽取中的实体顺序、自然语言推理中的前提和假设方向,都可能被随机交换或删除破坏。无约束 EDA 会把错误标签样本灌进训练集。

05

工程控制

控制增强比例、替换概率和每句最大扰动数;保护关键实体、数字、否定词和标签触发词;对增强样本做语言流畅性、语义相似度或人工抽检;增强样本只进入训练集。

06

评估方式

比较增强前后的验证 F1、少数类召回、鲁棒性测试和错误类型。还要检查训练集是否噪声变多、是否过拟合增强模式,以及真实线上样本是否受益。

易错点

  • 把验证集和测试集也做增强,导致评估失真。
  • 不保护否定词、实体、数字、时间和标签关键词。
  • 增强比例过高,引入大量噪声标签。
  • 使用低质量同义词词典,让句子不通顺或语义漂移。
  • 只看训练集准确率提升,不看真实验证集、少数类和线上鲁棒性。

面试官追问

EDA 和回译增强有什么区别?

EDA 是词级随机扰动,成本低但容易不自然;回译通过翻译再翻译生成句式变化,流畅性通常更好但成本更高,也可能改变细节或实体。两者都要验证标签一致性。

如何控制增强不改变标签?

保护实体、数字、否定词、情感词和槽位;限制扰动比例;用语义相似度、规则或分类器过滤;对高风险样本人工抽检。必要时只对非关键区域做改写。

为什么不能增强验证集?

验证集用于估计真实泛化能力。增强验证集会改变评估分布,甚至把训练增强规则带进评估,导致指标不能反映线上真实表现。

在意图识别中要保护什么?

要保护 slot、实体名、时间、地点、数字、动作词和否定词。比如“取消明天上海的票”和“购买明天上海的票”只差关键动词,随机替换会直接改变意图。