生产级 Agent 如何工程化实现自我校验、链路复盘、错误归因和动态修正？｜字节跳动 AI 应用开发面经解析

60 秒回答模板

生产级 Agent 的自我校验不能停留在让模型回答前说“请检查一下”，而要工程化成一套可记录、可回放、可归因、可修正的闭环。首先要把 Agent 执行过程结构化，记录用户目标、规划步骤、工具选择、工具入参、工具返回、模型中间决策、状态变化、最终输出和用户反馈，形成完整 trace。自我校验可以分为执行前、执行中和执行后三类：执行前检查任务是否清楚、权限是否足够、工具是否可用、参数是否完整；执行中检查工具结果是否异常、计划是否偏离、是否进入循环、成本是否超预算；执行后检查输出是否满足目标、是否引用了真实证据、是否存在未完成步骤或风险动作。链路复盘要能把一次失败拆到具体环节，例如意图理解错、计划拆解错、工具选错、参数生成错、工具服务失败、检索证据不足、状态污染、最终表达误导或前端交互信息缺失。错误归因不能只靠模型自评，要结合规则校验、工具返回、日志、评测器、人工标注和用户反馈。动态修正也要分级：低风险可以自动补参、重试、改写查询或重新规划；中风险需要提示用户确认或转人工；高风险应停止执行、保留现场并进入人工审核。前端要提供可理解的状态、确认、纠错和反馈入口，后端要有 trace、版本、实验分组、策略命中和回放能力。长期看，归因结果要回流到 Prompt、工具 schema、知识库、路由策略、测试集和产品流程中，让 Agent 从单次纠错变成持续改进。

考点 Trace 记录

难度 真实面经题

回答目标 让候选人能把 Agent 元认知能力落到工程系统中，讲清可观测、可归因、可修正、可持续迭代的生产级闭环。

深入解析

执行链路先结构化

没有完整 trace，就无法复盘。系统要记录目标、计划、工具、参数、结果、状态、成本、版本和最终输出，并能按一次用户任务把这些事件串起来，支持回放和审计。

自检分阶段进行

执行前检查任务和权限，执行中检查工具异常和循环，执行后检查目标完成、证据一致和风险动作。不同阶段的自检目标不同，不能只在最终输出前让模型自评一次。

错误归因要分模块

失败可能来自理解、规划、工具选择、参数、工具服务、检索、记忆、状态、前端输入或最终表达，不能笼统归为模型不好。只有归因到模块，后续修复才知道改 Prompt、工具 schema、知识库还是交互流程。

修正策略要分风险

低风险自动修正，中风险请求用户确认，高风险停止执行并转人工审核，避免模型在不确定时继续扩大错误。尤其涉及写操作、资金、权限和外部通知时，自动修正必须有明确边界。

闭环回流到系统

复盘结果要进入评测集、Prompt、工具 schema、知识库、路由策略和交互流程，形成长期质量改进。否则自我校验只是在单次会话里补救，下一次仍会重复同样的错误。

易错点

把自我校验等同于在 Prompt 里加一句请检查。
没有 trace，失败后无法复盘具体链路。
所有错误都归因于模型能力，不区分工具、检索、状态和交互问题。
让 Agent 在高风险不确定场景中自动继续执行。
badcase 不进入评测集和系统迭代，导致问题反复出现。

面试官追问

模型自我反思是否足够？

不够。模型自评可能不稳定，必须结合规则校验、工具真实返回、日志、评测器和人工标注来判断。

如何判断错误来自规划还是工具？

看计划步骤是否合理、工具选择是否匹配、参数是否正确、工具返回是否成功，以及同样工具在正确参数下是否可用。

哪些修正可以自动执行？

低风险操作可以自动补参、改写查询、短重试或重新规划；涉及写操作、资金、权限和高影响决策时必须确认或人工介入。

前端在错误修正中有什么作用？

前端要展示状态、等待、失败原因、确认选项和反馈入口，让用户能纠正目标或批准高风险动作。