真实面经题目 · 原创解析

RAG 或大模型知识库应用中,知识不断追加导致 Prompt 越来越长时,会带来哪些上下文、成本和质量问题,如何治理?

这题考 RAG 或大模型知识库应用的上下文治理能力。题源 evidence 指向新加入知识库造成 prompt 越来越长,所以回答不能停留在换长上下文模型,而要说明 prompt 变长会带来窗口挤占、成本上升、延迟变高、噪声和冲突增加、回答质量下降,并给出检索、压缩、版本、权限、评测和监控的治理方案。

出现于:美团 · 后端开发

60 秒回答模板

知识库追加内容后,最危险的做法是把更多资料直接拼进 Prompt。这样会带来三类问题:第一是上下文问题,Prompt 可能超过模型窗口,或挤掉系统指令、用户问题、历史对话和真正相关证据;长上下文中还容易出现中间信息被忽略、证据相互矛盾、旧文档覆盖新文档等问题。第二是成本和性能问题,输入 token 增加会拉高 prefill 延迟、推理费用、KV cache 占用和并发压力,多步大模型应用中成本会被放大。第三是质量和可靠性问题,无关知识会稀释重点,过期或冲突知识会诱导幻觉,未授权内容进入上下文还会造成权限泄露。治理上我会把 Prompt 当成有限预算,而不是知识库容器:知识库侧做清洗、去重、切分、元数据、版本和权限;检索侧做 query rewrite、混合召回、rerank 和阈值过滤;上下文侧做优先级编排、摘要压缩、证据引用、token budget 和冲突处理;上线后用召回率、引用正确率、幻觉率、P95 延迟、单次成本和 badcase 回流持续验证。

考点 有限预算
难度 真实面经题
回答目标 证明你能把 RAG 或大模型知识库的长 Prompt 问题拆成上下文、成本、质量、安全和治理闭环,而不是只给模型扩窗口。

深入解析

01

Prompt 不是知识库

Prompt 的职责是承载任务指令、用户问题、必要上下文和少量证据,不适合无限追加所有知识。知识库内容增长后,如果仍然采用静态拼接,系统会从检索增强退化成大段资料硬塞,既浪费窗口,也让模型更难判断哪些内容真正相关。

02

上下文窗口被挤占

模型上下文长度是硬预算。知识片段变多后,可能截断系统指令、用户最新问题、关键历史状态或真正相关证据。即使没有超过窗口,超长上下文也会带来注意力稀释和 lost-in-the-middle 问题,模型可能关注开头结尾而忽略中间证据。

03

成本和延迟上升

输入 token 越多,prefill 计算越重,TTFT、P95 延迟和 GPU KV cache 占用都会上升。单次 RAG 问答可能还能接受,但多轮对话、工具调用或反复生成场景会把长 Prompt 的 token 成本和尾延迟放大成系统性问题。

04

质量风险增加

无关文档会引入噪声,过期文档会和新文档冲突,重复内容会让模型过度相信某个观点,低质量内容会污染答案。更严重的是,知识库里如果混入提示注入、敏感信息或未授权内容,模型可能被诱导泄露信息或违反业务边界。

05

知识治理前置

治理要先发生在知识库侧。文档进入索引前应做去重、切分、标题路径保留、时间版本、来源可信度、权限标签、业务域标签和质量分层。新增知识不能只追加文本,还要知道它属于哪个租户、哪个业务、是否过期、能回答什么问题、和哪些旧内容冲突。

06

运行时上下文编排

运行时应根据问题动态召回,而不是固定拼接。可以用关键词加向量混合召回提高覆盖,再用 rerank 排序,用 token budget 控制每类内容份额。进入 Prompt 前做证据压缩、冲突合并、引用编号和优先级排序;证据不足时拒答或澄清,而不是继续追加更多低相关内容。

易错点

  • 把所有新增知识直接追加进 Prompt,把上下文窗口当成无限知识库。
  • 只说换长上下文模型,不处理召回、重排、压缩、版本和权限治理。
  • 只关注 token 成本,忽略无关证据、冲突证据和提示注入对回答质量的影响。
  • 臆造公司内部 RAG 架构;题源 evidence 只支持讨论知识库追加导致 Prompt 变长的通用治理问题。

面试官追问

如果正确知识没有被召回怎么办?

先定位是 query 改写、chunk 粒度、向量表达、关键词索引、metadata 过滤还是 rerank 出问题。可以加入混合检索、召回扩展、同义词、标题路径增强和人工标注回归集,而不是简单把更多文档塞进 Prompt。

知识库里新旧文档冲突如何处理?

要用版本、发布时间、权威来源和业务状态做优先级。Prompt 中可以显式说明采用最新有效版本,并在回答里引用来源;无法判断时返回不确定或请求人工确认。

上下文压缩会不会损失关键信息?

会,所以压缩要保留可验证事实、数字、条件和引用位置。关键证据最好保留原文片段,背景信息可摘要。压缩策略需要用标注集验证事实保留率和回答准确率。

如何判断治理后真的变好了?

离线看 Recall@K、MRR、引用正确率、答案正确率、无答案拒答率和幻觉率;线上看解决率、追问率、点踩率、P95 延迟、单次 token 成本、超时率和权限告警。