真实面经题目 · 原创解析
给定包含目标实体的文本,如何把实体链接到知识库,主要难点是什么?
这题考实体链接到知识库的完整链路,回答要覆盖 mention 规范化、候选召回、上下文排序、歧义消解、NIL 处理、知识库更新和评估指标。
真实面经题目 · 原创解析
这题考实体链接到知识库的完整链路,回答要覆盖 mention 规范化、候选召回、上下文排序、歧义消解、NIL 处理、知识库更新和评估指标。
给定一段包含目标实体的文本,实体链接的目标是把文本里的实体 mention 映射到知识库里的唯一实体 ID;如果知识库没有对应实体,也要能识别为 NIL 或新实体候选。流程上我会先做文本清洗和 mention 规范化,包括大小写、别名、简称、错别字和同义表达;然后做候选生成,用别名表、倒排检索、拼写纠错、向量召回或知识库图邻居拿到一批可能实体;接着做候选排序,利用 mention 周围上下文、实体类型、描述文本、别名、热度先验和图关系判断哪个实体最匹配;最后做阈值判断、NIL 识别和结果落库。难点主要是同名实体歧义、短文本上下文不足、别名和新词很多、知识库过期、长尾实体缺描述、以及实体边界和目标类型不清。评估上不能只看字符串命中,要看候选召回率、Top-1 准确率、MRR、NIL 识别准确率和分类型 badcase。
实体链接不是简单 NER,也不是只抽出文本中的词。它要把 mention 映射到知识库中的唯一实体,通常是一个稳定 ID,并保留实体类型、别名、描述和来源。如果知识库没有该实体,还要返回 NIL 或新实体候选,避免强行链接到错误对象。
候选生成阶段追求高召回,可以结合别名表、标准名匹配、模糊匹配、拼写纠错、倒排索引、embedding 召回和图关系扩展。比如同一个实体可能有简称、昵称、英文名或错别字表达,单纯精确匹配很容易漏掉。
候选排序要利用目标实体周围文本、实体类型、知识库描述、上下位关系、共现实体和图邻居。难点是同名实体很多,短文本提供的信息有限;如果上下文里出现品牌、地点、人物、品类等线索,就可以帮助判断候选实体是否符合语境。
知识库不可能覆盖所有新实体和长尾实体。系统要有置信度阈值和 NIL 判断,低置信度时不应硬链。知识库还要持续更新别名、描述、合并拆分关系和过期实体,否则模型会把新词错链到旧实体,或者多个实体互相混淆。
指标可以分层看:候选阶段看正确实体是否出现在 Top-K;排序阶段看 Top-1 accuracy、MRR 或 Recall@K;NIL 阶段看新实体识别和误拒率。还要按实体类型、文本长度、头部长尾、同名歧义和别名来源拆分 badcase。
NER 主要识别文本中的实体边界和类型,实体链接要进一步映射到知识库中的唯一实体 ID,并处理歧义和 NIL。
如果正确实体没有进入候选集,后面的排序模型无法补救。候选阶段应追求高召回,再由排序和阈值控制准确性。
设置置信度阈值和 NIL 类别,低置信度不强行链接;同时把高频 NIL 样本进入新实体发现、审核和知识库更新流程。
短文本上下文少,很多同名实体缺少消歧线索,需要更多依赖别名、类型先验、共现信息和知识库关系。