真实面经题目 · 原创解析

RAG 什么时候只用静态知识库,什么时候需要接入动态网页检索?

这道题考察 RAG 检索源选择和系统边界设计。回答要说明静态知识库适合权威、可治理、更新频率低或组织受控知识,优势是稳定、可审计、低延迟、低风险;动态网页检索适合新闻、政策、价格、版本、故障状态、市场信息等变化快且静态库无法覆盖的问题,优势是新鲜度和覆盖面。高质量回答应给出 query 路由、混合检索、来源可信度、成本延迟、安全合规、冲突处理、引用和评估方案,而不是简单说“静态不够就联网”。

出现于:蚂蚁集团 · 后端开发

60 秒回答模板

RAG 是否只用静态知识库,关键看问题对权威性、新鲜度和覆盖面的要求。静态知识库适合企业手册、产品文档、合同条款、培训资料、稳定 FAQ、代码规范、受控流程等治理内容,因为它可以做清洗、权限、版本、切片、embedding、审核和回归测试,答案更稳定、可审计、延迟也更可控。如果用户问的是概念解释、受控制度、固定产品能力或某个已入库文档的内容,优先只用静态库。需要接入动态网页检索的场景包括新闻事件、政策变化、价格汇率、第三方 API 最新版本、漏洞公告、竞品动态、实时状态和静态库覆盖不到的新实体。动态检索带来新鲜度,但也引入网页质量、广告 SEO、重复内容、权限合规、延迟和注入风险,所以要做 query 路由、可信域名白名单、时间过滤、内容抽取、去重、网页安全清洗、交叉验证和来源引用。成熟系统通常不是二选一,而是先判断 query 类型:稳定问题走静态库;强时效或静态库低置信时触发动态检索;两者冲突时按来源权威、更新时间和适用范围裁决,并在答案里明确依据。

考点 静态库重在治理
难度 真实面经题
回答目标 让读者能从知识稳定性、权威性、新鲜度、覆盖面和风险治理出发,设计静态知识库与动态网页检索的路由、融合和评估机制。

深入解析

01

选择维度

检索源选择应围绕四个维度:知识是否稳定、是否需要权威控制、是否需要最新信息、是否存在权限或合规边界。静态库偏治理和稳定,网页检索偏覆盖和新鲜。真正的系统设计要把这些维度转成路由规则和置信度,而不是按用户一句话固定选择。

02

静态库适用

只用静态知识库适合已知范围、版本可控、内容来源明确的知识,例如组织 SOP、产品使用文档、客服知识、法律合规模板、技术设计文档和稳定 FAQ。它的优势是可清洗、可授权、可回归、可追踪,且不会因外部网页变化导致答案漂移。

03

网页检索适用

动态网页检索适合信息变化快或静态库天然覆盖不足的问题,例如最新政策、公告、价格、版本发布、开源项目 issue、漏洞披露、新闻、竞品变化和外部服务状态。此时静态库可能提供背景,但不能承担当前事实的唯一证据。

04

Query 路由

路由可以结合规则和模型:识别“最新、今天、当前、是否还支持、价格、版本、公告”等时效信号;检查静态库召回分数、证据时间和覆盖度;如果静态库高置信且非时效,就不联网;如果召回低置信或证据过旧,就触发动态检索。

05

混合证据

很多问题需要静态库和网页共同回答。静态库可以提供私有定义、约束和历史背景,网页提供当前外部事实。合并时要按证据角色区分:背景、规则、当前事实、例外情况。不要让网页内容覆盖受控权限规则,也不要用旧静态文档否定最新权威公告。

06

风险控制

网页检索会带来不可信内容、SEO 垃圾、恶意提示注入、版权与隐私问题、页面变更和延迟抖动。工程上需要域名信誉、抓取范围、robots/权限合规、正文抽取、脚本剥离、去广告、内容安全扫描、时间戳保留和引用展示。高风险场景应限制可检索站点。

07

冲突处理

当静态库和动态网页冲突时,不能简单按模型偏好生成。应根据来源权威、更新时间、生效日期、业务适用范围和证据明确度裁决;如果无法裁决,就在回答中说明冲突,给出各自来源时间,并建议查询权威系统或人工确认。

08

评估闭环

评估要分 query 类型统计:静态库命中问题的准确率、动态问题的新鲜度、误联网率、漏联网率、引用可靠性、冲突处理准确率、平均延迟和成本。线上还要监控动态检索失败后的降级行为,避免网页不可用时生成无证据答案。

易错点

  • 把静态库和网页检索看成简单二选一,没有 query 路由和置信度判断。
  • 认为联网一定更准确,忽略网页噪声、注入风险和来源不可信。
  • 强时效问题仍只用静态库回答,导致过期事实被当成当前事实。
  • 受控制度类问题随意用外部网页覆盖,破坏权限和权威边界。
  • 动态网页结果不保留抓取时间、来源和引用,无法审计。
  • 网页正文抽取不做清洗,把导航、广告或脚本内容送入模型。
  • 冲突证据直接拼接给生成模型,期望模型自行裁决。
  • 只评估最终答案好不好,不统计误联网、漏联网、延迟和成本。

面试官追问

如何设计 query router 判断是否需要动态检索?

router 可以先用规则识别“最新、当前、今天、版本、价格、公告、状态”等时效信号,再结合静态库 topK 分数、证据更新时间和覆盖度。对高置信稳定问题只走静态库;对低置信、强时效或旧证据问题触发动态检索。复杂场景可让分类模型输出路由、理由和所需新鲜度窗口。

静态库召回分数高但文档很旧时,是否还应该联网?

要看问题是否依赖当前事实。如果问基础概念或历史背景,高分旧文档可能仍可用;如果问“现在是否支持”“最新政策”“当前价格”,旧文档即使高分也只能作背景,需要联网或查权威动态源。关键是把相关性和新鲜度分开判断。

网页检索如何防止抓到 SEO 垃圾页或恶意提示注入?

可以用域名白名单、来源信誉、发布时间、重复内容检测和正文质量评分过滤候选;抓取后剥离脚本、导航、广告和隐藏文本,并把网页内容当作不可信数据而不是指令。进入生成前还要保留来源、时间和引用,必要时要求多源交叉验证。

组织受控知识和外部网页结论冲突时,答案应该如何表达?

如果问题涉及内部制度、权限、流程或私有产品边界,组织受控知识通常优先,外部网页只能作为背景或提示可能变化。答案应明确“内部文档显示”和“外部页面显示”的差异,并说明适用范围;不能用外部页面直接覆盖内部规则。

动态检索失败时,系统应该降级到静态库、拒答,还是返回部分答案?

降级策略取决于问题风险。稳定背景问题可以用静态库回答并说明未获取动态信息;强时效问题动态检索失败时应拒答或提示无法确认当前状态;复合问题可以只回答静态部分,同时标出当前事实缺失,避免把旧信息当作最新结论。

如何评估“该联网时没联网”和“不该联网却联网”的损失?

需要标注一批问题的理想路由和证据要求,分别统计漏联网率与误联网率。漏联网通常导致过期答案和事实错误,误联网则增加延迟、成本、噪声和安全风险。可以按业务风险加权,例如政策、价格、故障状态的漏联网损失应高于普通概念解释。