真实面经题目 · 原创解析
笔记里多个实体和情感词如何抽取实体-情感关系?
这题考面向真实文本的关系抽取方案,重点是先识别实体和情感词,再做候选配对、关系判断和冲突消解。
真实面经题目 · 原创解析
这题考面向真实文本的关系抽取方案,重点是先识别实体和情感词,再做候选配对、关系判断和冲突消解。
我会把它拆成五步。第一步做文本清洗、分句和上下文窗口切分,保留否定、程度副词和转折词。第二步抽取实体,可以用词典规则、NER 或领域模型,情感词也可以用词典加模型识别。第三步生成候选实体-情感对,按句内、邻近窗口、依存路径或共指关系减少组合爆炸。第四步对候选对做关系分类或匹配打分,特征包括距离、句法依存、实体类型、情感极性、上下文表示和是否被否定转折修饰。第五步做全局消歧和评估,例如一个情感词对应多个实体、一个实体多个情感、跨句指代和无对应关系都要处理。
输出不只是实体列表和情感词列表,而是结构化三元组,例如实体、情感极性或情感词、关系置信度。还要约定是否允许一对多、多对一、跨句关系和无情感实体,否则后续评估口径会混乱。
实体可以来自领域词典、NER、短语抽取或模型序列标注;情感词可以来自情感词典、分类模型注意力候选或序列标注。真实文本里别忘了别名、错别字、缩写、表情符号、否定词和程度词。
8 个实体和 6 个情感词直接全连接会有 48 个候选,噪声很大。更好的做法是按句子、标点、窗口距离、依存路径和共指链先缩小候选范围,再把可能关系交给模型判断。
基础方案可以用规则和特征模型,进阶方案可以用 BERT 类编码器对实体和情感词打标后做 pair classification,也可以用 span-pair、table filling 或联合抽取模型。关键是让模型看到两者之间的上下文,而不是只看词本身。
同一句里可能有多个实体和多个情感,最近距离不一定正确。需要用置信度、句法角色、转折范围、否定范围和全局约束做消解。评估时看实体识别、情感识别和关系抽取三层指标,不能只看最终准确率。
保留多候选打分,用句法依存、并列结构和上下文语义判断;确实多实体共享同一情感时允许输出多条关系。
可以先用词典、依存规则和弱监督构造银标,再人工抽样修正,最后训练关系分类模型并持续用错误样本迭代。
需要识别其作用范围,例如不、没有、但是、不过会改变情感极性或关系归属,不能只做情感词词典匹配。
分别评估实体抽取、情感抽取和关系三元组 F1,并按多实体、多情感、跨句和否定转折样本切片分析。