真实面经题目 · 原创解析

AI 无法处理复杂业务逻辑时如何做人工干预?

当 AI 无法稳定处理复杂业务逻辑时,人工干预不是简单地让人兜底,而是把系统设计成可识别不确定性、可暂停高风险动作、可交给合适人员决策、可追踪结果并反哺模型的闭环。核心是明确哪些场景自动化、哪些场景必须升级、人工结果如何沉淀成规则、样本和评测。

出现于:字节跳动 · 前端

60 秒回答模板

可以从触发、承接、执行、反馈四个层面回答。触发层要用置信度、规则校验、风险等级、金额阈值、用户投诉、模型自检等信号判断是否需要人工介入;承接层要把任务转成工单或审核队列,带上原始输入、模型输出、引用依据、风险原因和建议动作;执行层要提供审批、改写、选择、驳回、补充信息、二次确认等操作,并保证权限、审计和 SLA;反馈层要把人工处理结果回写到知识库、规则库、标注集、评测集和监控报表中。好的人工干预机制不是降低自动化能力,而是让自动化在边界内更可靠,在边界外可控可恢复。

考点 人机分工
难度 真实面经高频题
回答目标 讲清机制、边界和追问

深入解析

01

先定义失败边界

复杂业务逻辑通常包含例外规则、合规约束、用户状态、历史记录、金额风险、跨系统依赖和组织责任边界。AI 出错往往不是因为不会生成文字,而是缺少完整上下文,或者无法保证推理过程满足业务约束。因此第一步不是等事故发生再人工处理,而是把业务拆成可自动决策、需要校验、必须人工审批三类,并明确每类的风险成本。

02

用信号触发升级

人工干预需要可解释的触发条件。常见信号包括模型置信度低、检索证据不足、输出违反结构校验、规则引擎校验失败、用户意图冲突、金额或权限超过阈值、涉及投诉和合规风险、模型多次重试仍不一致。触发条件应同时覆盖模型侧不确定性和业务侧高风险,避免只依赖一个概率分数。

03

把人嵌入流程

人工介入最好成为工作流的一环,而不是临时私聊处理。系统应生成可处理的任务,包含用户请求、关键上下文、模型候选答案、命中的规则、失败原因、推荐操作和截止时间。人工人员可以选择批准、修改、驳回、转交、补充资料或要求用户确认。这样既能提高处理效率,也能让责任链和审计记录完整保留。

04

控制权限和影响面

复杂业务中的人工干预也可能产生错误,因此要设计权限、双人复核、变更预览、灰度执行和回滚机制。低风险内容可以单人确认,高风险动作需要多级审批或只允许给出建议,不直接执行。系统还要限制人工只能访问任务所需数据,记录谁在何时基于什么依据做了什么决定,防止人工兜底变成新的安全漏洞。

05

沉淀改进闭环

人工处理结果应该被结构化保存,而不是只停留在客服记录里。常见做法是把最终答案、修改原因、正确业务规则、失败样例和用户反馈沉淀到标注集、知识库、规则库和回归评测集中。后续可以用于提示词优化、检索内容补齐、规则增强、模型微调和自动化阈值调整,让人工介入频率逐步下降。

易错点

  • 把人工干预理解成模型失败后随便找人处理,没有设计触发条件、任务流和审计记录。
  • 只用模型置信度判断是否升级,忽略业务规则、权限、金额、合规和用户影响范围。
  • 人工处理结果没有结构化沉淀,导致同类问题反复依赖人工,自动化能力没有提升。
  • 把人工权限开得过大,没有复核、回滚和最小权限控制,反而引入新的业务风险。

面试官追问

人工干预和规则引擎是什么关系?

规则引擎适合表达确定性约束,例如金额阈值、权限边界、必填字段和合规禁区。人工干预适合处理规则覆盖不到的例外、冲突和责任判断。两者通常配合使用:规则先拦截明显风险,人工再处理复杂灰区。

如何避免所有复杂问题都流向人工?

要对升级原因做统计,把高频原因沉淀成规则、补充知识库、优化提示词或新增产品字段。还要设置分层阈值,低风险场景允许模型自修复,高风险场景才进入人工队列。

人工审核结果如何用于模型改进?

可以保存原始输入、模型输出、人工修改、修改原因和最终结果,形成带标签样本。再用这些样本做离线评测、提示词回归测试、检索质量评估,必要时再进入微调或偏好优化流程。

人工介入会不会降低用户体验?

如果没有产品设计会降低体验。更好的做法是区分同步和异步:简单风险给用户二次确认,高风险任务告知处理进度和预计时间,后台用优先级、SLA 和通知机制保证用户知道请求没有丢失。