真实面经题目 · 原创解析
GraphRAG 中 local、global、混合检索和社区检索分别如何工作,适合什么问题?
这题考的是候选人是否理解 GraphRAG 不是单一检索方法,而是一组利用实体、关系、社区和文本证据组织上下文的策略:local 偏实体邻域,global 偏全局主题,社区检索偏聚合摘要,混合检索负责把图和文本召回结合起来。
真实面经题目 · 原创解析
这题考的是候选人是否理解 GraphRAG 不是单一检索方法,而是一组利用实体、关系、社区和文本证据组织上下文的策略:local 偏实体邻域,global 偏全局主题,社区检索偏聚合摘要,混合检索负责把图和文本召回结合起来。
GraphRAG 的检索策略可以按问题范围来区分。Local retrieval 面向局部实体问题,例如“某个用户、商品、论文、服务和谁有关”,它先识别 query 中的实体,再沿图谱取一跳或多跳邻居、关系边、相关文本片段和属性,适合回答实体关系、归因、路径和局部事实。Global retrieval 面向全局综合问题,例如“这个知识库里某个主题的主要风险是什么”,它不依赖单个实体,而是利用图上社区、主题摘要或全局索引收集跨文档证据,适合总结、趋势和全局性问答。社区检索通常先把图按实体关系聚成社区,并为每个社区生成摘要;查询时召回相关社区摘要,再下钻到社区内实体和原文证据,适合主题边界清晰但文档分散的问题。混合检索则把图检索和传统 RAG 的向量、关键词、结构化过滤结合起来,先用文本召回找语义相关材料,再用图扩展上下文,或先用实体图定位范围,再用向量找原文证据。工程上要根据问题类型路由:实体型走 local,宏观总结走 global,主题聚合走社区,开放问题走混合,并用权限、时间、置信度和 rerank 控制最终上下文。
普通 RAG 主要按文本相似度找片段,GraphRAG 额外利用实体、关系、事件、属性和社区结构。它的目标不是用图替代向量检索,而是在问题需要关联、聚合、路径或跨文档推理时,让检索上下文更有结构。
Local retrieval 通常从 query 中识别实体或实体类型,再到知识图谱里查找该实体的一跳、两跳邻居、边关系、属性和相关证据文本。它适合回答“这个对象和哪些对象有关”“为什么出现这个结果”“A 和 B 的关系是什么”等局部事实与关系问题。
图邻居扩展很容易爆炸,尤其是高连接度实体。工程上要按边类型、时间、权重、权限、节点类型和最大 token 预算裁剪,并对路径或邻居做 rerank。否则取回的上下文会很多但不聚焦,反而降低生成质量。
Global retrieval 面向不绑定单个实体的全局问题,例如主题总结、风险归纳、趋势分析和跨组织对比。它通常依赖社区摘要、主题索引、图统计或分层摘要,把大量局部信息先压缩成可检索的全局视图,再交给模型综合。
社区检索会根据实体关系把图划分为若干社区,每个社区对应一组关系紧密的实体和文档。系统可以为社区生成摘要、关键词和代表性证据。查询时先找相关社区,再在社区内部展开实体、关系和原文,适合跨多篇文档但主题相对集中的问题。
混合策略会同时使用向量、关键词、图查询和结构化过滤。比如用户问一个业务故障,系统可以先用实体识别定位服务节点,再沿调用关系找上下游,同时用向量检索找事故记录和文档说明,最后把图证据和文本证据合并重排。
实体明确、关系明确的问题优先 local;主题宏观、需要全局归纳的问题优先 global;问题围绕某个主题群但实体分散时优先社区检索;意图不确定或需要兼顾语义和关系时使用混合检索。优秀系统会把路由做成可解释的策略,而不是所有问题都跑最重链路。
GraphRAG 的图节点、边和社区摘要通常来自抽取和聚合,可能有错误或过度概括。最终回答应尽量回到原始文本证据、结构化记录或可验证的边属性,并记录实体识别、路径扩展、社区命中和证据裁剪过程,便于调试和评估。
不一定。对简单事实查询和语义匹配问题,向量加关键词可能更便宜、更直接。GraphRAG 的价值主要在实体关系、跨文档聚合、路径推理和全局总结场景,如果知识本身没有稳定结构,图构建成本可能不划算。
可以限制跳数、边类型、节点类型、时间范围和最大候选数,对高连接度节点降权,并用 rerank 判断路径或邻居与 query 的相关性。还可以优先选择带原文证据、权重高、最近更新的边。
会,所以它适合作为全局定位和压缩视图,不适合直接回答需要精确数值或单条事实的问题。一个稳健做法是先用全局摘要定位主题或社区,再回到社区内原文证据补充细节。
社区划分本身是近似的,可能受抽取质量和图结构影响。可以允许节点属于多个社区,保留文本向量召回兜底,并通过查询日志、人工标注和答案质量反馈迭代社区划分与摘要。
可以看实体识别准确率、关系召回率、路径命中率、证据覆盖率、上下文压缩率、答案正确率和证据可验证性。线上还要看延迟、图查询成本、失败率和用户追问率。