GraphRAG 中 local、global、混合检索和社区检索分别如何工作，适合什么问题？｜快手后端开发面经解析

60 秒回答模板

GraphRAG 的检索策略可以按问题范围来区分。Local retrieval 面向局部实体问题，例如“某个用户、商品、论文、服务和谁有关”，它先识别 query 中的实体，再沿图谱取一跳或多跳邻居、关系边、相关文本片段和属性，适合回答实体关系、归因、路径和局部事实。Global retrieval 面向全局综合问题，例如“这个知识库里某个主题的主要风险是什么”，它不依赖单个实体，而是利用图上社区、主题摘要或全局索引收集跨文档证据，适合总结、趋势和全局性问答。社区检索通常先把图按实体关系聚成社区，并为每个社区生成摘要；查询时召回相关社区摘要，再下钻到社区内实体和原文证据，适合主题边界清晰但文档分散的问题。混合检索则把图检索和传统 RAG 的向量、关键词、结构化过滤结合起来，先用文本召回找语义相关材料，再用图扩展上下文，或先用实体图定位范围，再用向量找原文证据。工程上要根据问题类型路由：实体型走 local，宏观总结走 global，主题聚合走社区，开放问题走混合，并用权限、时间、置信度和 rerank 控制最终上下文。

考点 Local 看实体邻域

难度 真实面经题

回答目标 让候选人能按问题类型解释 GraphRAG 的 local、global、社区和混合检索策略，讲清工作机制、适用场景、工程裁剪、证据回溯和评估风险。

深入解析

GraphRAG 的核心是结构化上下文

普通 RAG 主要按文本相似度找片段，GraphRAG 额外利用实体、关系、事件、属性和社区结构。它的目标不是用图替代向量检索，而是在问题需要关联、聚合、路径或跨文档推理时，让检索上下文更有结构。

Local 适合实体邻域问题

Local retrieval 通常从 query 中识别实体或实体类型，再到知识图谱里查找该实体的一跳、两跳邻居、边关系、属性和相关证据文本。它适合回答“这个对象和哪些对象有关”“为什么出现这个结果”“A 和 B 的关系是什么”等局部事实与关系问题。

Local 要控制扩展半径

图邻居扩展很容易爆炸，尤其是高连接度实体。工程上要按边类型、时间、权重、权限、节点类型和最大 token 预算裁剪，并对路径或邻居做 rerank。否则取回的上下文会很多但不聚焦，反而降低生成质量。

Global 适合宏观总结

Global retrieval 面向不绑定单个实体的全局问题，例如主题总结、风险归纳、趋势分析和跨组织对比。它通常依赖社区摘要、主题索引、图统计或分层摘要，把大量局部信息先压缩成可检索的全局视图，再交给模型综合。

社区检索连接局部和全局

社区检索会根据实体关系把图划分为若干社区，每个社区对应一组关系紧密的实体和文档。系统可以为社区生成摘要、关键词和代表性证据。查询时先找相关社区，再在社区内部展开实体、关系和原文，适合跨多篇文档但主题相对集中的问题。

混合检索提升覆盖与精度

混合策略会同时使用向量、关键词、图查询和结构化过滤。比如用户问一个业务故障，系统可以先用实体识别定位服务节点，再沿调用关系找上下游，同时用向量检索找事故记录和文档说明，最后把图证据和文本证据合并重排。

问题路由决定策略选择

实体明确、关系明确的问题优先 local；主题宏观、需要全局归纳的问题优先 global；问题围绕某个主题群但实体分散时优先社区检索；意图不确定或需要兼顾语义和关系时使用混合检索。优秀系统会把路由做成可解释的策略，而不是所有问题都跑最重链路。

最终答案仍要回到证据

GraphRAG 的图节点、边和社区摘要通常来自抽取和聚合，可能有错误或过度概括。最终回答应尽量回到原始文本证据、结构化记录或可验证的边属性，并记录实体识别、路径扩展、社区命中和证据裁剪过程，便于调试和评估。

易错点

把 GraphRAG 简单理解为向量检索前加一个知识图谱名词。
分不清 local 和 global，所有问题都沿实体邻居扩展。
多跳扩展不设限制，导致上下文被高连接度节点污染。
把社区摘要当作最终事实，不回到原始证据核验。
忽略实体识别和实体消歧，query 中的对象还没定位准就开始图查询。
认为混合检索就是把图结果和向量结果拼在一起，不做融合、去重和重排。
只讲离线建图，不讲权限、增量更新和图谱过期问题。
不根据问题类型路由，导致简单问题也走昂贵的全局图流程。

面试官追问

GraphRAG 一定比普通向量 RAG 更好吗？

不一定。对简单事实查询和语义匹配问题，向量加关键词可能更便宜、更直接。GraphRAG 的价值主要在实体关系、跨文档聚合、路径推理和全局总结场景，如果知识本身没有稳定结构，图构建成本可能不划算。

Local retrieval 的多跳扩展怎么防止噪声？

可以限制跳数、边类型、节点类型、时间范围和最大候选数，对高连接度节点降权，并用 rerank 判断路径或邻居与 query 的相关性。还可以优先选择带原文证据、权重高、最近更新的边。

Global retrieval 的摘要会不会丢细节？

会，所以它适合作为全局定位和压缩视图，不适合直接回答需要精确数值或单条事实的问题。一个稳健做法是先用全局摘要定位主题或社区，再回到社区内原文证据补充细节。

社区划分错了怎么办？

社区划分本身是近似的，可能受抽取质量和图结构影响。可以允许节点属于多个社区，保留文本向量召回兜底，并通过查询日志、人工标注和答案质量反馈迭代社区划分与摘要。

GraphRAG 的评估指标有哪些？

可以看实体识别准确率、关系召回率、路径命中率、证据覆盖率、上下文压缩率、答案正确率和证据可验证性。线上还要看延迟、图查询成本、失败率和用户追问率。