真实面经题目 · 原创解析
NLP 中 EDA 数据增强有哪些操作,什么时候会伤害语义和标签一致性?
这道题考察 NLP 数据增强的边界意识。EDA 的同义词替换、随机插入、交换和删除只在标签保持不变时有价值;对否定词、实体、数字、时间、领域术语、槽位和逻辑关系敏感的任务,盲目增强会制造噪声标签,导致验证和线上效果变差。
真实面经题目 · 原创解析
这道题考察 NLP 数据增强的边界意识。EDA 的同义词替换、随机插入、交换和删除只在标签保持不变时有价值;对否定词、实体、数字、时间、领域术语、槽位和逻辑关系敏感的任务,盲目增强会制造噪声标签,导致验证和线上效果变差。
EDA 是一组轻量文本增强方法,常见有同义词替换、随机插入、随机交换、随机删除,目标是在不改变标签的前提下制造表述扰动,提高模型鲁棒性。它更适合小数据集、分类任务和标签由整体语义决定的短文本。风险是增强会改变语义或标签:替换否定词、情感词、实体名、数字、时间、领域术语,或在意图识别、关系抽取、NLI 等任务里打乱顺序,都可能改变标签。工程上要控制增强比例和扰动强度,保护关键词、实体、数字、否定词和槽位;增强只用于训练集,不能污染验证/测试集;高风险任务要做人审或语义一致性过滤,并通过鲁棒性集和线上指标验证。
EDA 通常包括 synonym replacement、random insertion、random swap、random deletion。它的优势是实现简单、成本低,不需要额外生成模型,适合在数据较少时增加表述多样性。
增强后标签必须不变。整体情感分类、粗粒度主题分类、短文本鲁棒性训练等场景较适合;如果标签依赖某个精确词、实体、数字、顺序或逻辑关系,就要非常谨慎。
否定词、程度词、情感词、实体名、时间、金额和领域术语被替换或删除,可能直接改变事实。例如“不是很好”删掉“不是”后情感极性反转;医疗、法律、金融文本中一个词也可能改变结论。
意图识别中的槽位、关系抽取中的实体顺序、自然语言推理中的前提和假设方向,都可能被随机交换或删除破坏。无约束 EDA 会把错误标签样本灌进训练集。
控制增强比例、替换概率和每句最大扰动数;保护关键实体、数字、否定词和标签触发词;对增强样本做语言流畅性、语义相似度或人工抽检;增强样本只进入训练集。
比较增强前后的验证 F1、少数类召回、鲁棒性测试和错误类型。还要检查训练集是否噪声变多、是否过拟合增强模式,以及真实线上样本是否受益。
EDA 是词级随机扰动,成本低但容易不自然;回译通过翻译再翻译生成句式变化,流畅性通常更好但成本更高,也可能改变细节或实体。两者都要验证标签一致性。
保护实体、数字、否定词、情感词和槽位;限制扰动比例;用语义相似度、规则或分类器过滤;对高风险样本人工抽检。必要时只对非关键区域做改写。
验证集用于估计真实泛化能力。增强验证集会改变评估分布,甚至把训练增强规则带进评估,导致指标不能反映线上真实表现。
要保护 slot、实体名、时间、地点、数字、动作词和否定词。比如“取消明天上海的票”和“购买明天上海的票”只差关键动词,随机替换会直接改变意图。