60 秒回答模板

我会把它拆成五步。第一步做文本清洗、分句和上下文窗口切分,保留否定、程度副词和转折词。第二步抽取实体,可以用词典规则、NER 或领域模型,情感词也可以用词典加模型识别。第三步生成候选实体-情感对,按句内、邻近窗口、依存路径或共指关系减少组合爆炸。第四步对候选对做关系分类或匹配打分,特征包括距离、句法依存、实体类型、情感极性、上下文表示和是否被否定转折修饰。第五步做全局消歧和评估,例如一个情感词对应多个实体、一个实体多个情感、跨句指代和无对应关系都要处理。

考点 先抽取再配对
难度 真实面经题
回答目标 讲清原理、实现和边界

深入解析

01

先定义输出

输出不只是实体列表和情感词列表,而是结构化三元组,例如实体、情感极性或情感词、关系置信度。还要约定是否允许一对多、多对一、跨句关系和无情感实体,否则后续评估口径会混乱。

02

实体和情感抽取

实体可以来自领域词典、NER、短语抽取或模型序列标注;情感词可以来自情感词典、分类模型注意力候选或序列标注。真实文本里别忘了别名、错别字、缩写、表情符号、否定词和程度词。

03

候选对生成

8 个实体和 6 个情感词直接全连接会有 48 个候选,噪声很大。更好的做法是按句子、标点、窗口距离、依存路径和共指链先缩小候选范围,再把可能关系交给模型判断。

04

关系判断模型

基础方案可以用规则和特征模型,进阶方案可以用 BERT 类编码器对实体和情感词打标后做 pair classification,也可以用 span-pair、table filling 或联合抽取模型。关键是让模型看到两者之间的上下文,而不是只看词本身。

05

冲突消解和评估

同一句里可能有多个实体和多个情感,最近距离不一定正确。需要用置信度、句法角色、转折范围、否定范围和全局约束做消解。评估时看实体识别、情感识别和关系抽取三层指标,不能只看最终准确率。

易错点

  • 只说用 NER 或情感分类,没有解释实体和情感词如何配对。
  • 用最近距离作为唯一规则,忽略并列、否定、转折和跨句指代。
  • 没有定义输出结构和一对多、多对一关系,导致方案不可评估。
  • 只看整体准确率,不拆分实体、情感和关系三层误差。

面试官追问

如果一个情感词可能修饰多个实体怎么办?

保留多候选打分,用句法依存、并列结构和上下文语义判断;确实多实体共享同一情感时允许输出多条关系。

没有大量标注数据时怎么做?

可以先用词典、依存规则和弱监督构造银标,再人工抽样修正,最后训练关系分类模型并持续用错误样本迭代。

否定词和转折词怎么处理?

需要识别其作用范围,例如不、没有、但是、不过会改变情感极性或关系归属,不能只做情感词词典匹配。

怎么评估这套系统?

分别评估实体抽取、情感抽取和关系三元组 F1,并按多实体、多情感、跨句和否定转折样本切片分析。