AI 无法处理复杂业务逻辑时如何做人工干预？｜字节跳动前端面经解析

60 秒回答模板

可以从触发、承接、执行、反馈四个层面回答。触发层要用置信度、规则校验、风险等级、金额阈值、用户投诉、模型自检等信号判断是否需要人工介入；承接层要把任务转成工单或审核队列，带上原始输入、模型输出、引用依据、风险原因和建议动作；执行层要提供审批、改写、选择、驳回、补充信息、二次确认等操作，并保证权限、审计和 SLA；反馈层要把人工处理结果回写到知识库、规则库、标注集、评测集和监控报表中。好的人工干预机制不是降低自动化能力，而是让自动化在边界内更可靠，在边界外可控可恢复。

考点 先定义失败边界

主线 用信号触发升级

易错点 把人工干预理解成模型失败后随便找人处理，没有设计触发条…

深入解析

先定义失败边界

复杂业务逻辑通常包含例外规则、合规约束、用户状态、历史记录、金额风险、跨系统依赖和组织责任边界。AI 出错往往不是因为不会生成文字，而是缺少完整上下文，或者无法保证推理过程满足业务约束。因此第一步不是等事故发生再人工处理，而是把业务拆成可自动决策、需要校验、必须人工审批三类，并明确每类的风险成本。

用信号触发升级

人工干预需要可解释的触发条件。常见信号包括模型置信度低、检索证据不足、输出违反结构校验、规则引擎校验失败、用户意图冲突、金额或权限超过阈值、涉及投诉和合规风险、模型多次重试仍不一致。触发条件应同时覆盖模型侧不确定性和业务侧高风险，避免只依赖一个概率分数。

把人嵌入流程

人工介入最好成为工作流的一环，而不是临时私聊处理。系统应生成可处理的任务，包含用户请求、关键上下文、模型候选答案、命中的规则、失败原因、推荐操作和截止时间。人工人员可以选择批准、修改、驳回、转交、补充资料或要求用户确认。这样既能提高处理效率，也能让责任链和审计记录完整保留。

控制权限和影响面

复杂业务中的人工干预也可能产生错误，因此要设计权限、双人复核、变更预览、灰度执行和回滚机制。低风险内容可以单人确认，高风险动作需要多级审批或只允许给出建议，不直接执行。系统还要限制人工只能访问任务所需数据，记录谁在何时基于什么依据做了什么决定，防止人工兜底变成新的安全漏洞。

沉淀改进闭环

人工处理结果应该被结构化保存，而不是只停留在客服记录里。常见做法是把最终答案、修改原因、正确业务规则、失败样例和用户反馈沉淀到标注集、知识库、规则库和回归评测集中。后续可以用于提示词优化、检索内容补齐、规则增强、模型微调和自动化阈值调整，让人工介入频率逐步下降。

易错点

把人工干预理解成模型失败后随便找人处理，没有设计触发条件、任务流和审计记录。
只用模型置信度判断是否升级，忽略业务规则、权限、金额、合规和用户影响范围。
人工处理结果没有结构化沉淀，导致同类问题反复依赖人工，自动化能力没有提升。
把人工权限开得过大，没有复核、回滚和最小权限控制，反而引入新的业务风险。

面试官追问

人工干预和规则引擎是什么关系？

规则引擎适合表达确定性约束，例如金额阈值、权限边界、必填字段和合规禁区。人工干预适合处理规则覆盖不到的例外、冲突和责任判断。两者通常配合使用：规则先拦截明显风险，人工再处理复杂灰区。

如何避免所有复杂问题都流向人工？

要对升级原因做统计，把高频原因沉淀成规则、补充知识库、优化提示词或新增产品字段。还要设置分层阈值，低风险场景允许模型自修复，高风险场景才进入人工队列。

人工审核结果如何用于模型改进？

可以保存原始输入、模型输出、人工修改、修改原因和最终结果，形成带标签样本。再用这些样本做离线评测、提示词回归测试、检索质量评估，必要时再进入微调或偏好优化流程。

人工介入会不会降低用户体验？

如果没有产品设计会降低体验。更好的做法是区分同步和异步：简单风险给用户二次确认，高风险任务告知处理进度和预计时间，后台用优先级、SLA 和通知机制保证用户知道请求没有丢失。