真实面经题目 · 原创解析
生产级 Agent 如何工程化实现自我校验、链路复盘、错误归因和动态修正?
这题考生产级 Agent 的质量闭环工程化。重点是把自我校验、链路复盘、错误归因和动态修正落到运行时、数据、评测和前后端体验中,而不是让模型简单反思一句。
真实面经题目 · 原创解析
这题考生产级 Agent 的质量闭环工程化。重点是把自我校验、链路复盘、错误归因和动态修正落到运行时、数据、评测和前后端体验中,而不是让模型简单反思一句。
生产级 Agent 的自我校验不能停留在让模型回答前说“请检查一下”,而要工程化成一套可记录、可回放、可归因、可修正的闭环。首先要把 Agent 执行过程结构化,记录用户目标、规划步骤、工具选择、工具入参、工具返回、模型中间决策、状态变化、最终输出和用户反馈,形成完整 trace。 自我校验可以分为执行前、执行中和执行后三类:执行前检查任务是否清楚、权限是否足够、工具是否可用、参数是否完整;执行中检查工具结果是否异常、计划是否偏离、是否进入循环、成本是否超预算;执行后检查输出是否满足目标、是否引用了真实证据、是否存在未完成步骤或风险动作。链路复盘要能把一次失败拆到具体环节,例如意图理解错、计划拆解错、工具选错、参数生成错、工具服务失败、检索证据不足、状态污染、最终表达误导或前端交互信息缺失。 错误归因不能只靠模型自评,要结合规则校验、工具返回、日志、评测器、人工标注和用户反馈。动态修正也要分级:低风险可以自动补参、重试、改写查询或重新规划;中风险需要提示用户确认或转人工;高风险应停止执行、保留现场并进入人工审核。前端要提供可理解的状态、确认、纠错和反馈入口,后端要有 trace、版本、实验分组、策略命中和回放能力。长期看,归因结果要回流到 Prompt、工具 schema、知识库、路由策略、测试集和产品流程中,让 Agent 从单次纠错变成持续改进。
没有完整 trace,就无法复盘。系统要记录目标、计划、工具、参数、结果、状态、成本、版本和最终输出,并能按一次用户任务把这些事件串起来,支持回放和审计。
执行前检查任务和权限,执行中检查工具异常和循环,执行后检查目标完成、证据一致和风险动作。不同阶段的自检目标不同,不能只在最终输出前让模型自评一次。
失败可能来自理解、规划、工具选择、参数、工具服务、检索、记忆、状态、前端输入或最终表达,不能笼统归为模型不好。只有归因到模块,后续修复才知道改 Prompt、工具 schema、知识库还是交互流程。
低风险自动修正,中风险请求用户确认,高风险停止执行并转人工审核,避免模型在不确定时继续扩大错误。尤其涉及写操作、资金、权限和外部通知时,自动修正必须有明确边界。
复盘结果要进入评测集、Prompt、工具 schema、知识库、路由策略和交互流程,形成长期质量改进。否则自我校验只是在单次会话里补救,下一次仍会重复同样的错误。
不够。模型自评可能不稳定,必须结合规则校验、工具真实返回、日志、评测器和人工标注来判断。
看计划步骤是否合理、工具选择是否匹配、参数是否正确、工具返回是否成功,以及同样工具在正确参数下是否可用。
低风险操作可以自动补参、改写查询、短重试或重新规划;涉及写操作、资金、权限和高影响决策时必须确认或人工介入。
前端要展示状态、等待、失败原因、确认选项和反馈入口,让用户能纠正目标或批准高风险动作。