RAG 或大模型知识库应用中，知识不断追加导致 Prompt 越来越长时，会带来哪些上下文、成本和质量问题，如何治理？｜美团后端开发面经解析

60 秒回答模板

知识库追加内容后，最危险的做法是把更多资料直接拼进 Prompt。这样会带来三类问题：第一是上下文问题，Prompt 可能超过模型窗口，或挤掉系统指令、用户问题、历史对话和真正相关证据；长上下文中还容易出现中间信息被忽略、证据相互矛盾、旧文档覆盖新文档等问题。第二是成本和性能问题，输入 token 增加会拉高 prefill 延迟、推理费用、KV cache 占用和并发压力，多步大模型应用中成本会被放大。第三是质量和可靠性问题，无关知识会稀释重点，过期或冲突知识会诱导幻觉，未授权内容进入上下文还会造成权限泄露。治理上我会把 Prompt 当成有限预算，而不是知识库容器：知识库侧做清洗、去重、切分、元数据、版本和权限；检索侧做 query rewrite、混合召回、rerank 和阈值过滤；上下文侧做优先级编排、摘要压缩、证据引用、token budget 和冲突处理；上线后用召回率、引用正确率、幻觉率、P95 延迟、单次成本和 badcase 回流持续验证。

考点 有限预算

难度 真实面经题

回答目标 证明你能把 RAG 或大模型知识库的长 Prompt 问题拆成上下文、成本、质量、安全和治理闭环，而不是只给模型扩窗口。

深入解析

Prompt 不是知识库

Prompt 的职责是承载任务指令、用户问题、必要上下文和少量证据，不适合无限追加所有知识。知识库内容增长后，如果仍然采用静态拼接，系统会从检索增强退化成大段资料硬塞，既浪费窗口，也让模型更难判断哪些内容真正相关。

上下文窗口被挤占

模型上下文长度是硬预算。知识片段变多后，可能截断系统指令、用户最新问题、关键历史状态或真正相关证据。即使没有超过窗口，超长上下文也会带来注意力稀释和 lost-in-the-middle 问题，模型可能关注开头结尾而忽略中间证据。

成本和延迟上升

输入 token 越多，prefill 计算越重，TTFT、P95 延迟和 GPU KV cache 占用都会上升。单次 RAG 问答可能还能接受，但多轮对话、工具调用或反复生成场景会把长 Prompt 的 token 成本和尾延迟放大成系统性问题。

质量风险增加

无关文档会引入噪声，过期文档会和新文档冲突，重复内容会让模型过度相信某个观点，低质量内容会污染答案。更严重的是，知识库里如果混入提示注入、敏感信息或未授权内容，模型可能被诱导泄露信息或违反业务边界。

知识治理前置

治理要先发生在知识库侧。文档进入索引前应做去重、切分、标题路径保留、时间版本、来源可信度、权限标签、业务域标签和质量分层。新增知识不能只追加文本，还要知道它属于哪个租户、哪个业务、是否过期、能回答什么问题、和哪些旧内容冲突。

运行时上下文编排

运行时应根据问题动态召回，而不是固定拼接。可以用关键词加向量混合召回提高覆盖，再用 rerank 排序，用 token budget 控制每类内容份额。进入 Prompt 前做证据压缩、冲突合并、引用编号和优先级排序；证据不足时拒答或澄清，而不是继续追加更多低相关内容。

易错点

把所有新增知识直接追加进 Prompt，把上下文窗口当成无限知识库。
只说换长上下文模型，不处理召回、重排、压缩、版本和权限治理。
只关注 token 成本，忽略无关证据、冲突证据和提示注入对回答质量的影响。
臆造公司内部 RAG 架构；题源 evidence 只支持讨论知识库追加导致 Prompt 变长的通用治理问题。

面试官追问

如果正确知识没有被召回怎么办？

先定位是 query 改写、chunk 粒度、向量表达、关键词索引、metadata 过滤还是 rerank 出问题。可以加入混合检索、召回扩展、同义词、标题路径增强和人工标注回归集，而不是简单把更多文档塞进 Prompt。

知识库里新旧文档冲突如何处理？

要用版本、发布时间、权威来源和业务状态做优先级。Prompt 中可以显式说明采用最新有效版本，并在回答里引用来源；无法判断时返回不确定或请求人工确认。

上下文压缩会不会损失关键信息？

会，所以压缩要保留可验证事实、数字、条件和引用位置。关键证据最好保留原文片段，背景信息可摘要。压缩策略需要用标注集验证事实保留率和回答准确率。

如何判断治理后真的变好了？

离线看 Recall@K、MRR、引用正确率、答案正确率、无答案拒答率和幻觉率；线上看解决率、追问率、点踩率、P95 延迟、单次 token 成本、超时率和权限告警。