真实面经题目 · 原创解析
大模型能力超出边界时,AI 产品应如何识别风险并触发兜底流程?
这题考大模型产品的能力边界管理,回答要说明如何识别超能力风险、触发兜底、降低伤害并把失败样本回流。
真实面经题目 · 原创解析
这题考大模型产品的能力边界管理,回答要说明如何识别超能力风险、触发兜底、降低伤害并把失败样本回流。
我会把兜底机制设计成识别、分级、处置和回流四步。识别上结合输入风险、模型置信度、检索命中、工具调用状态、输出安全检测和用户上下文,判断是否超出模型能力。分级上区分低风险不确定、高风险事实问题、敏感合规问题和系统链路失败。处置上可以追问澄清、拒答并解释边界、给出保守建议、切换检索或工具、转人工、降级到模板答案或旧模型。产品上要让用户知道系统为何兜底,并提供继续补充信息或反馈的入口。指标上看兜底触发率、误拦截率、漏拦截率、问题解决率、人工介入成本、投诉率和用户满意度。最后把兜底样本回流到评测集和策略规则中。
大模型超出边界不只是一种情况。可能是事实知识不足、实时信息缺失、专业资质限制、输入不完整、工具不可用、安全敏感、长上下文丢失或模型自信但错误。不同边界需要不同兜底动作。
识别不能只靠模型自己说不确定。可以结合 query 风险分类、检索召回质量、引用来源可信度、工具调用成功率、输出自检、安全模型、历史 badcase 和用户反馈。多信号一致时触发强兜底,信号冲突时进入保守回答或追问。
低风险信息不足可以追问澄清;事实不确定可以引用来源或说明不确定;工具失败可以重试、切换工具或稍后再试;高风险医疗法律金融等问题应拒绝具体决策建议并引导专业渠道;商业流程失败可以转人工或提交工单。
兜底不能只返回一句失败。产品应说明原因,例如信息不足、暂不支持、需要更多条件或正在转人工,并给用户下一步选择。好的兜底让用户知道如何继续,而不是让用户感觉系统突然失灵。
兜底指标要同时看触发率、误拦截率、漏拦截率、兜底后任务完成率、人工转接成功率、用户继续输入率、投诉率和平均处理成本。只追求低触发率会放出风险,只追求高触发率会伤害可用性。
每次兜底都应记录触发信号、用户问题、模型输出、处置动作和用户后续反馈。复盘时区分策略过严、模型能力不足、知识库缺失、工具不稳和产品入口误导,再进入训练数据、规则、知识库或交互优化。
不能单独依赖。大模型可能自信地答错,所以要结合检索命中、引用质量、工具结果、安全检测和历史 badcase。置信度只能作为一个信号。
信息不足但任务合理时优先追问;涉及高风险、违法违规、专业资质或系统明确不支持时应拒答或给边界说明。追问不能用来规避必须拒绝的问题。
会,所以要做分级和透明解释。好的兜底能减少错误伤害,并给用户可执行下一步;坏的兜底是频繁、笼统、没有恢复路径。
不是。转人工成本高、响应慢,应只用于高价值或高风险场景。普通问题可以通过追问、检索增强、模板答案或稍后重试解决。
看误拦截率、用户继续追问后成功率、被拦问题人工判定可回答比例,以及触发兜底后的流失。如果可回答问题大量被拦,策略就过严。
可以做短重试、切换备选工具、返回已知信息并说明实时结果不可用、创建异步任务或转人工。不能编造工具结果。