RAG 生成阶段如何通过 Prompt 边界约束，在没有检索到有效证据时避免模型编造答案？｜字节跳动算法面经解析

60 秒回答模板

RAG 生成阶段我会把 Prompt 设计成证据优先的回答协议：先明确模型只能基于检索片段和用户问题回答，不允许补充片段外事实；要求答案中的关键结论能对应到证据编号；当没有有效证据、证据相关性不足或证据互相冲突时，必须返回无法根据现有资料回答，并说明缺少什么信息。为了让约束可执行，还要把检索分数、来源、时间和片段编号传给模型，输出结构里包含 answer、citations、confidence、missingEvidence 或 refusalReason。Prompt 之外还要有证据阈值、引用校验和人工/自动评估，因为一句禁止幻觉的指令不够。

考点 不要只写禁止编造

难度 真实面经题

回答目标 展示你能在 RAG 生成阶段建立证据边界，让模型在证据不足时诚实拒答，而不是编造看似合理的答案。

深入解析

证据边界

Prompt 首先要定义可用证据范围：只能使用本轮检索到的片段、用户明确提供的信息和系统允许的上下文。模型预训练知识只能用于语言组织，不能作为事实来源。这样才能把 RAG 的答案锚定在可追溯材料上。

无证据策略

无证据不是只看 topK 是否为空，还要看相关性是否低、片段是否只包含噪声、是否缺少关键字段、是否和问题不匹配。Prompt 要要求模型在这些情况下拒绝编造，返回无法回答、需要补充的信息或建议重新检索的查询方向。

引用约束

要求答案的关键事实附带证据编号或来源，可以降低模型自由发挥。更进一步可以让模型先列 evidence-to-claim 映射，再生成最终答案。系统侧要校验引用编号存在，且引用片段确实包含对应内容。

冲突处理

检索结果可能互相矛盾或版本不同。Prompt 应要求模型识别冲突，优先使用权威、更新、更相关的来源；无法判断时明确说明资料不一致，而不是选择一个看起来合理的说法直接输出。

结构化输出

结构化输出可以把回答、引用、置信度、缺失证据和拒答原因分开。这样后处理可以检查 answer 非空时是否有 citations，confidence 是否和检索分数匹配，缺证据时是否真的没有编造内容。

评估闭环

要用无答案问题、低相关检索、冲突证据和诱导编造问题做评估。指标包括无证据拒答率、有证据回答率、引用准确率、claim 支撑率和幻觉率。发现问题后可能要改检索阈值、rerank、上下文压缩或 Prompt 边界。

易错点

只在 Prompt 里写“不要幻觉”，没有无证据协议和引用校验。
把 topK 非空等同于有证据，忽略低相关、噪声和冲突片段。
允许模型用预训练知识补事实，却不区分来源和置信度。
没有用无答案问题和冲突证据评估拒答与幻觉表现。

面试官追问

模型还是会编造引用怎么办？

要做引用合法性校验，检查 citation id 是否存在，并抽取 claim 与片段做语义一致性判断。引用不存在或不支持时，可以要求重答、删除该结论或返回证据不足。

无证据时用户体验会不会很差？

可以给出清晰的缺失信息和下一步建议，例如需要哪类文档、哪些关键词或更具体的问题。拒答不是只说不知道，而是诚实说明现有证据不足并帮助用户补齐输入。

检索分数应该直接暴露给模型吗？

可以暴露相对置信信号或相关性等级，但不要让模型只按分数机械判断。更稳的是系统先做阈值过滤，再把来源、时间、片段编号和相关性提示给模型。

RAG 能不能允许模型用常识补充？

取决于产品场景。高可信问答、企业知识库和法务/医疗等场景应严格限制片段外事实；低风险科普可以允许常识性组织，但必须区分证据内结论和背景解释。