RAG 什么时候只用静态知识库，什么时候需要接入动态网页检索？｜蚂蚁集团后端开发面经解析

60 秒回答模板

RAG 是否只用静态知识库，关键看问题对权威性、新鲜度和覆盖面的要求。静态知识库适合企业手册、产品文档、合同条款、培训资料、稳定 FAQ、代码规范、受控流程等治理内容，因为它可以做清洗、权限、版本、切片、embedding、审核和回归测试，答案更稳定、可审计、延迟也更可控。如果用户问的是概念解释、受控制度、固定产品能力或某个已入库文档的内容，优先只用静态库。需要接入动态网页检索的场景包括新闻事件、政策变化、价格汇率、第三方 API 最新版本、漏洞公告、竞品动态、实时状态和静态库覆盖不到的新实体。动态检索带来新鲜度，但也引入网页质量、广告 SEO、重复内容、权限合规、延迟和注入风险，所以要做 query 路由、可信域名白名单、时间过滤、内容抽取、去重、网页安全清洗、交叉验证和来源引用。成熟系统通常不是二选一，而是先判断 query 类型：稳定问题走静态库；强时效或静态库低置信时触发动态检索；两者冲突时按来源权威、更新时间和适用范围裁决，并在答案里明确依据。

考点 静态库重在治理

难度 真实面经题

回答目标 让读者能从知识稳定性、权威性、新鲜度、覆盖面和风险治理出发，设计静态知识库与动态网页检索的路由、融合和评估机制。

深入解析

选择维度

检索源选择应围绕四个维度：知识是否稳定、是否需要权威控制、是否需要最新信息、是否存在权限或合规边界。静态库偏治理和稳定，网页检索偏覆盖和新鲜。真正的系统设计要把这些维度转成路由规则和置信度，而不是按用户一句话固定选择。

静态库适用

只用静态知识库适合已知范围、版本可控、内容来源明确的知识，例如组织 SOP、产品使用文档、客服知识、法律合规模板、技术设计文档和稳定 FAQ。它的优势是可清洗、可授权、可回归、可追踪，且不会因外部网页变化导致答案漂移。

网页检索适用

动态网页检索适合信息变化快或静态库天然覆盖不足的问题，例如最新政策、公告、价格、版本发布、开源项目 issue、漏洞披露、新闻、竞品变化和外部服务状态。此时静态库可能提供背景，但不能承担当前事实的唯一证据。

Query 路由

路由可以结合规则和模型：识别“最新、今天、当前、是否还支持、价格、版本、公告”等时效信号；检查静态库召回分数、证据时间和覆盖度；如果静态库高置信且非时效，就不联网；如果召回低置信或证据过旧，就触发动态检索。

混合证据

很多问题需要静态库和网页共同回答。静态库可以提供私有定义、约束和历史背景，网页提供当前外部事实。合并时要按证据角色区分：背景、规则、当前事实、例外情况。不要让网页内容覆盖受控权限规则，也不要用旧静态文档否定最新权威公告。

风险控制

网页检索会带来不可信内容、SEO 垃圾、恶意提示注入、版权与隐私问题、页面变更和延迟抖动。工程上需要域名信誉、抓取范围、robots/权限合规、正文抽取、脚本剥离、去广告、内容安全扫描、时间戳保留和引用展示。高风险场景应限制可检索站点。

冲突处理

当静态库和动态网页冲突时，不能简单按模型偏好生成。应根据来源权威、更新时间、生效日期、业务适用范围和证据明确度裁决；如果无法裁决，就在回答中说明冲突，给出各自来源时间，并建议查询权威系统或人工确认。

评估闭环

评估要分 query 类型统计：静态库命中问题的准确率、动态问题的新鲜度、误联网率、漏联网率、引用可靠性、冲突处理准确率、平均延迟和成本。线上还要监控动态检索失败后的降级行为，避免网页不可用时生成无证据答案。

易错点

把静态库和网页检索看成简单二选一，没有 query 路由和置信度判断。
认为联网一定更准确，忽略网页噪声、注入风险和来源不可信。
强时效问题仍只用静态库回答，导致过期事实被当成当前事实。
受控制度类问题随意用外部网页覆盖，破坏权限和权威边界。
动态网页结果不保留抓取时间、来源和引用，无法审计。
网页正文抽取不做清洗，把导航、广告或脚本内容送入模型。
冲突证据直接拼接给生成模型，期望模型自行裁决。
只评估最终答案好不好，不统计误联网、漏联网、延迟和成本。

面试官追问

如何设计 query router 判断是否需要动态检索？

router 可以先用规则识别“最新、当前、今天、版本、价格、公告、状态”等时效信号，再结合静态库 topK 分数、证据更新时间和覆盖度。对高置信稳定问题只走静态库；对低置信、强时效或旧证据问题触发动态检索。复杂场景可让分类模型输出路由、理由和所需新鲜度窗口。

静态库召回分数高但文档很旧时，是否还应该联网？

要看问题是否依赖当前事实。如果问基础概念或历史背景，高分旧文档可能仍可用；如果问“现在是否支持”“最新政策”“当前价格”，旧文档即使高分也只能作背景，需要联网或查权威动态源。关键是把相关性和新鲜度分开判断。

网页检索如何防止抓到 SEO 垃圾页或恶意提示注入？

可以用域名白名单、来源信誉、发布时间、重复内容检测和正文质量评分过滤候选；抓取后剥离脚本、导航、广告和隐藏文本，并把网页内容当作不可信数据而不是指令。进入生成前还要保留来源、时间和引用，必要时要求多源交叉验证。

组织受控知识和外部网页结论冲突时，答案应该如何表达？

如果问题涉及内部制度、权限、流程或私有产品边界，组织受控知识通常优先，外部网页只能作为背景或提示可能变化。答案应明确“内部文档显示”和“外部页面显示”的差异，并说明适用范围；不能用外部页面直接覆盖内部规则。

动态检索失败时，系统应该降级到静态库、拒答，还是返回部分答案？

降级策略取决于问题风险。稳定背景问题可以用静态库回答并说明未获取动态信息；强时效问题动态检索失败时应拒答或提示无法确认当前状态；复合问题可以只回答静态部分，同时标出当前事实缺失，避免把旧信息当作最新结论。

如何评估“该联网时没联网”和“不该联网却联网”的损失？

需要标注一批问题的理想路由和证据要求，分别统计漏联网率与误联网率。漏联网通常导致过期答案和事实错误，误联网则增加延迟、成本、噪声和安全风险。可以按业务风险加权，例如政策、价格、故障状态的漏联网损失应高于普通概念解释。