聊天 AI 应用中如何减少大模型幻觉？｜高频面试题解析

60 秒回答模板

可以从系统链路回答。输入阶段要识别用户意图、领域和风险等级；知识阶段用 RAG、结构化数据库或工具调用提供可靠事实，并要求模型引用或依赖这些证据；生成阶段用清晰提示词约束回答范围、禁止编造、要求缺证据时说明不确定；校验阶段用格式校验、事实一致性检查、规则过滤、二次模型审查或外部 API 验证关键结论；产品阶段为高风险场景设计人工审核、免责声明、追问澄清和反馈入口；运营阶段持续收集幻觉样本，构建评测集并跟踪幻觉率、拒答率和用户纠错率。减少幻觉不是单点优化，而是完整质量工程。

考点 先识别幻觉类型

主线 提供可靠依据

易错点 以为加一句不要胡说就能解决幻觉，忽略知识来源、校验和评…

深入解析

先识别幻觉类型

幻觉不只有一种。事实型幻觉是编造不存在的事实、链接、法规或数据；推理型幻觉是步骤看似合理但结论错误；引用型幻觉是证据和结论不匹配；格式型幻觉是违反输出约束；边界型幻觉是在不知道时仍然强答。不同类型需要不同控制手段，不能只靠一句提示词解决。

提供可靠依据

聊天应用如果需要回答企业知识、产品政策、订单状态或实时数据，就不能只依赖模型参数记忆。应通过检索增强、数据库查询、搜索、业务 API 或文档索引提供当前可信信息，并把证据片段、时间、来源和权限一起纳入上下文。模型的任务从凭记忆回答变成基于证据组织答案。

约束生成行为

提示词应明确回答边界、证据使用方式和不确定时的行为。例如要求只根据给定资料回答，缺少资料时说明无法确认，禁止编造编号、链接和统计值。对于结构化任务，可以要求固定 JSON schema 或分字段输出。约束越贴近业务失败模式，越能减少常见幻觉。

增加校验环节

生成后的内容可以通过多层校验降低风险。格式可以用 schema 校验，数值可以重新计算，实体可以查库确认，引用可以检查是否真的出现在证据中，敏感内容可以走规则和分类器，高风险答案可以二次审查或人工确认。校验不能保证绝对正确，但能拦住大量可检测错误。

闭环评测监控

上线后要持续量化幻觉。常见指标包括事实错误率、无证据回答率、引用不一致率、拒答率、用户纠错率、人工升级率和高风险场景命中率。把线上失败样本沉淀为回归评测集，才能判断提示词、检索策略、模型版本或工具链改动是否真正改善质量。

易错点

以为加一句不要胡说就能解决幻觉，忽略知识来源、校验和评测体系。
把 RAG 当成万能方案，不评估检索召回质量和证据是否支持答案。
为了避免幻觉让模型过度拒答，导致用户在可回答场景也得不到帮助。
没有记录线上幻觉样本，优化只能凭感觉，无法证明模型版本或策略是否变好。

面试官追问

RAG 能完全解决幻觉吗？

不能。RAG 只提供外部证据，但检索可能召回错误内容，模型也可能错误理解证据或把证据外信息补进去。还需要检索评估、证据约束、引用校验和生成后检查。

拒答率越高是不是越安全？

不一定。拒答率过高会伤害可用性，也可能说明检索或提示词过于保守。更合理的是在高风险和缺证据场景拒答，在低风险场景给出有限回答或追问澄清。

如何处理模型编造引用？

可以要求答案中的每个关键结论绑定证据 ID，并在生成后检查证据 ID 是否存在、引用文本是否支持结论。无法找到支持证据的句子应删除、降级或进入人工审核。

用户反馈在减少幻觉中有什么作用？

用户反馈能发现离线评测覆盖不到的真实失败场景。需要把纠错、差评、重问和人工转接样本结构化，归因到知识缺失、检索失败、提示不足或模型推理错误。