真实面经题目 · 原创解析

聊天 AI 应用中如何减少大模型幻觉?

减少聊天 AI 应用中的大模型幻觉,需要同时处理知识来源、提示约束、检索增强、工具调用、输出校验、拒答策略、评测监控和用户体验。核心原则是让模型少凭空补全,多基于可验证证据回答,并在证据不足时明确不确定。

出现于:字节跳动 · 技术客户成功

60 秒回答模板

可以从系统链路回答。输入阶段要识别用户意图、领域和风险等级;知识阶段用 RAG、结构化数据库或工具调用提供可靠事实,并要求模型引用或依赖这些证据;生成阶段用清晰提示词约束回答范围、禁止编造、要求缺证据时说明不确定;校验阶段用格式校验、事实一致性检查、规则过滤、二次模型审查或外部 API 验证关键结论;产品阶段为高风险场景设计人工审核、免责声明、追问澄清和反馈入口;运营阶段持续收集幻觉样本,构建评测集并跟踪幻觉率、拒答率和用户纠错率。减少幻觉不是单点优化,而是完整质量工程。

考点 证据优先
难度 真实面经高频题
回答目标 讲清机制、边界和追问

深入解析

01

先识别幻觉类型

幻觉不只有一种。事实型幻觉是编造不存在的事实、链接、法规或数据;推理型幻觉是步骤看似合理但结论错误;引用型幻觉是证据和结论不匹配;格式型幻觉是违反输出约束;边界型幻觉是在不知道时仍然强答。不同类型需要不同控制手段,不能只靠一句提示词解决。

02

提供可靠依据

聊天应用如果需要回答企业知识、产品政策、订单状态或实时数据,就不能只依赖模型参数记忆。应通过检索增强、数据库查询、搜索、业务 API 或文档索引提供当前可信信息,并把证据片段、时间、来源和权限一起纳入上下文。模型的任务从凭记忆回答变成基于证据组织答案。

03

约束生成行为

提示词应明确回答边界、证据使用方式和不确定时的行为。例如要求只根据给定资料回答,缺少资料时说明无法确认,禁止编造编号、链接和统计值。对于结构化任务,可以要求固定 JSON schema 或分字段输出。约束越贴近业务失败模式,越能减少常见幻觉。

04

增加校验环节

生成后的内容可以通过多层校验降低风险。格式可以用 schema 校验,数值可以重新计算,实体可以查库确认,引用可以检查是否真的出现在证据中,敏感内容可以走规则和分类器,高风险答案可以二次审查或人工确认。校验不能保证绝对正确,但能拦住大量可检测错误。

05

闭环评测监控

上线后要持续量化幻觉。常见指标包括事实错误率、无证据回答率、引用不一致率、拒答率、用户纠错率、人工升级率和高风险场景命中率。把线上失败样本沉淀为回归评测集,才能判断提示词、检索策略、模型版本或工具链改动是否真正改善质量。

易错点

  • 以为加一句不要胡说就能解决幻觉,忽略知识来源、校验和评测体系。
  • 把 RAG 当成万能方案,不评估检索召回质量和证据是否支持答案。
  • 为了避免幻觉让模型过度拒答,导致用户在可回答场景也得不到帮助。
  • 没有记录线上幻觉样本,优化只能凭感觉,无法证明模型版本或策略是否变好。

面试官追问

RAG 能完全解决幻觉吗?

不能。RAG 只提供外部证据,但检索可能召回错误内容,模型也可能错误理解证据或把证据外信息补进去。还需要检索评估、证据约束、引用校验和生成后检查。

拒答率越高是不是越安全?

不一定。拒答率过高会伤害可用性,也可能说明检索或提示词过于保守。更合理的是在高风险和缺证据场景拒答,在低风险场景给出有限回答或追问澄清。

如何处理模型编造引用?

可以要求答案中的每个关键结论绑定证据 ID,并在生成后检查证据 ID 是否存在、引用文本是否支持结论。无法找到支持证据的句子应删除、降级或进入人工审核。

用户反馈在减少幻觉中有什么作用?

用户反馈能发现离线评测覆盖不到的真实失败场景。需要把纠错、差评、重问和人工转接样本结构化,归因到知识缺失、检索失败、提示不足或模型推理错误。