60 秒回答模板

我会把兜底机制设计成识别、分级、处置和回流四步。识别上结合输入风险、模型置信度、检索命中、工具调用状态、输出安全检测和用户上下文,判断是否超出模型能力。分级上区分低风险不确定、高风险事实问题、敏感合规问题和系统链路失败。处置上可以追问澄清、拒答并解释边界、给出保守建议、切换检索或工具、转人工、降级到模板答案或旧模型。产品上要让用户知道系统为何兜底,并提供继续补充信息或反馈的入口。指标上看兜底触发率、误拦截率、漏拦截率、问题解决率、人工介入成本、投诉率和用户满意度。最后把兜底样本回流到评测集和策略规则中。

考点 边界类型先分类
难度 真实面经题
回答目标 识别边界并触发兜底

深入解析

01

先定义能力边界类型

大模型超出边界不只是一种情况。可能是事实知识不足、实时信息缺失、专业资质限制、输入不完整、工具不可用、安全敏感、长上下文丢失或模型自信但错误。不同边界需要不同兜底动作。

02

用多信号识别风险

识别不能只靠模型自己说不确定。可以结合 query 风险分类、检索召回质量、引用来源可信度、工具调用成功率、输出自检、安全模型、历史 badcase 和用户反馈。多信号一致时触发强兜底,信号冲突时进入保守回答或追问。

03

兜底动作要按风险分级

低风险信息不足可以追问澄清;事实不确定可以引用来源或说明不确定;工具失败可以重试、切换工具或稍后再试;高风险医疗法律金融等问题应拒绝具体决策建议并引导专业渠道;商业流程失败可以转人工或提交工单。

04

用户体验要透明可恢复

兜底不能只返回一句失败。产品应说明原因,例如信息不足、暂不支持、需要更多条件或正在转人工,并给用户下一步选择。好的兜底让用户知道如何继续,而不是让用户感觉系统突然失灵。

05

指标要看拦截质量

兜底指标要同时看触发率、误拦截率、漏拦截率、兜底后任务完成率、人工转接成功率、用户继续输入率、投诉率和平均处理成本。只追求低触发率会放出风险,只追求高触发率会伤害可用性。

06

回流机制决定长期效果

每次兜底都应记录触发信号、用户问题、模型输出、处置动作和用户后续反馈。复盘时区分策略过严、模型能力不足、知识库缺失、工具不稳和产品入口误导,再进入训练数据、规则、知识库或交互优化。

易错点

  • 把兜底理解成统一回复“我不知道”,没有分风险和场景。
  • 只依赖模型自我判断是否有能力,忽略外部信号。
  • 兜底话术不透明,用户不知道为什么失败或下一步怎么办。
  • 为了降低风险过度拒答,伤害正常任务完成率。
  • 把所有失败都转人工,不考虑成本和响应时效。
  • 没有记录兜底原因和后续反馈,无法持续优化能力边界。

面试官追问

模型置信度可靠吗?

不能单独依赖。大模型可能自信地答错,所以要结合检索命中、引用质量、工具结果、安全检测和历史 badcase。置信度只能作为一个信号。

什么时候应该追问,什么时候应该拒答?

信息不足但任务合理时优先追问;涉及高风险、违法违规、专业资质或系统明确不支持时应拒答或给边界说明。追问不能用来规避必须拒绝的问题。

兜底会不会降低用户体验?

会,所以要做分级和透明解释。好的兜底能减少错误伤害,并给用户可执行下一步;坏的兜底是频繁、笼统、没有恢复路径。

转人工是否就是最好的兜底?

不是。转人工成本高、响应慢,应只用于高价值或高风险场景。普通问题可以通过追问、检索增强、模板答案或稍后重试解决。

如何评估兜底策略是否过严?

看误拦截率、用户继续追问后成功率、被拦问题人工判定可回答比例,以及触发兜底后的流失。如果可回答问题大量被拦,策略就过严。

工具调用失败时怎么兜底?

可以做短重试、切换备选工具、返回已知信息并说明实时结果不可用、创建异步任务或转人工。不能编造工具结果。