真实面经题目 · 原创解析
聊天 AI 应用中如何减少大模型幻觉?
减少聊天 AI 应用中的大模型幻觉,需要同时处理知识来源、提示约束、检索增强、工具调用、输出校验、拒答策略、评测监控和用户体验。核心原则是让模型少凭空补全,多基于可验证证据回答,并在证据不足时明确不确定。
真实面经题目 · 原创解析
减少聊天 AI 应用中的大模型幻觉,需要同时处理知识来源、提示约束、检索增强、工具调用、输出校验、拒答策略、评测监控和用户体验。核心原则是让模型少凭空补全,多基于可验证证据回答,并在证据不足时明确不确定。
可以从系统链路回答。输入阶段要识别用户意图、领域和风险等级;知识阶段用 RAG、结构化数据库或工具调用提供可靠事实,并要求模型引用或依赖这些证据;生成阶段用清晰提示词约束回答范围、禁止编造、要求缺证据时说明不确定;校验阶段用格式校验、事实一致性检查、规则过滤、二次模型审查或外部 API 验证关键结论;产品阶段为高风险场景设计人工审核、免责声明、追问澄清和反馈入口;运营阶段持续收集幻觉样本,构建评测集并跟踪幻觉率、拒答率和用户纠错率。减少幻觉不是单点优化,而是完整质量工程。
幻觉不只有一种。事实型幻觉是编造不存在的事实、链接、法规或数据;推理型幻觉是步骤看似合理但结论错误;引用型幻觉是证据和结论不匹配;格式型幻觉是违反输出约束;边界型幻觉是在不知道时仍然强答。不同类型需要不同控制手段,不能只靠一句提示词解决。
聊天应用如果需要回答企业知识、产品政策、订单状态或实时数据,就不能只依赖模型参数记忆。应通过检索增强、数据库查询、搜索、业务 API 或文档索引提供当前可信信息,并把证据片段、时间、来源和权限一起纳入上下文。模型的任务从凭记忆回答变成基于证据组织答案。
提示词应明确回答边界、证据使用方式和不确定时的行为。例如要求只根据给定资料回答,缺少资料时说明无法确认,禁止编造编号、链接和统计值。对于结构化任务,可以要求固定 JSON schema 或分字段输出。约束越贴近业务失败模式,越能减少常见幻觉。
生成后的内容可以通过多层校验降低风险。格式可以用 schema 校验,数值可以重新计算,实体可以查库确认,引用可以检查是否真的出现在证据中,敏感内容可以走规则和分类器,高风险答案可以二次审查或人工确认。校验不能保证绝对正确,但能拦住大量可检测错误。
上线后要持续量化幻觉。常见指标包括事实错误率、无证据回答率、引用不一致率、拒答率、用户纠错率、人工升级率和高风险场景命中率。把线上失败样本沉淀为回归评测集,才能判断提示词、检索策略、模型版本或工具链改动是否真正改善质量。
不能。RAG 只提供外部证据,但检索可能召回错误内容,模型也可能错误理解证据或把证据外信息补进去。还需要检索评估、证据约束、引用校验和生成后检查。
不一定。拒答率过高会伤害可用性,也可能说明检索或提示词过于保守。更合理的是在高风险和缺证据场景拒答,在低风险场景给出有限回答或追问澄清。
可以要求答案中的每个关键结论绑定证据 ID,并在生成后检查证据 ID 是否存在、引用文本是否支持结论。无法找到支持证据的句子应删除、降级或进入人工审核。
用户反馈能发现离线评测覆盖不到的真实失败场景。需要把纠错、差评、重问和人工转接样本结构化,归因到知识缺失、检索失败、提示不足或模型推理错误。