智能运维助手中，Planner/Executor/Supervisor 多 Agent 模式相比单 Agent 有什么优势、边界和适用场景？｜字节跳动后端开发面经解析

60 秒回答模板

智能运维助手要处理告警理解、根因定位、查询执行、修复建议和风险控制。Planner/Executor/Supervisor 模式的价值在于把规划、执行和监督拆开，让高风险运维动作可审计、可回滚、可人工确认，而不是让一个 Agent 从头猜到尾。 Planner 负责目标拆解：Planner 将告警或用户问题拆成诊断步骤，决定要查哪些指标、日志、配置和依赖。它不直接执行危险动作，而是输出计划、假设和需要的工具。 Executor 负责受控执行：Executor 根据计划调用监控、日志、CMDB、发布系统或工单系统，执行查询、聚合和只读分析。写操作要通过权限校验、审批或人工确认。 Supervisor 负责纠偏：Supervisor 检查计划是否偏离、工具结果是否异常、是否进入循环、是否触碰高风险操作，并在必要时打断、重规划或升级人工。单 Agent 更适合轻任务：如果只是 FAQ、简单日志查询或低风险摘要，单 Agent 延迟低、实现简单。复杂排障、多工具依赖和高风险动作才更适合三角色拆分。工程代价要承认：多 Agent 会增加状态同步、角色 Prompt、trace、调度和测试成本。必须用统一状态、幂等任务、权限模型和回放能力控制复杂度。最后要把方案落到可验证的指标、失败兜底和迭代闭环上。面试里不要只讲概念名词，要说明边界、取舍、数据来源、线上观测和出问题后的回滚或人工介入。

考点 规划执行分离

难度 真实面经题

回答目标 让面试官看到你理解运维 Agent 的核心是受控自治和可审计执行。

深入解析

Planner 负责目标拆解

Planner 将告警或用户问题拆成诊断步骤，决定要查哪些指标、日志、配置和依赖。它不直接执行危险动作，而是输出计划、假设和需要的工具。

Executor 负责受控执行

Executor 根据计划调用监控、日志、CMDB、发布系统或工单系统，执行查询、聚合和只读分析。写操作要通过权限校验、审批或人工确认。

Supervisor 负责纠偏

Supervisor 检查计划是否偏离、工具结果是否异常、是否进入循环、是否触碰高风险操作，并在必要时打断、重规划或升级人工。

单 Agent 更适合轻任务

如果只是 FAQ、简单日志查询或低风险摘要，单 Agent 延迟低、实现简单。复杂排障、多工具依赖和高风险动作才更适合三角色拆分。

工程代价要承认

多 Agent 会增加状态同步、角色 Prompt、trace、调度和测试成本。必须用统一状态、幂等任务、权限模型和回放能力控制复杂度。

易错点

把三角色只当成命名差异，不说明责任和权限边界。
让 Executor 自由决定高风险写操作，缺少审批和审计。
没有统一状态，角色之间靠长文本转述导致信息丢失。
所有问题都套多 Agent，造成延迟和维护成本过高。
只讲排障成功，不讲失败回退、循环控制和人工升级。

面试官追问

Supervisor 和 Planner 的区别是什么？

Planner 负责制定诊断路径，Supervisor 负责检查路径执行是否安全、完整、有效，并在异常时触发纠偏或人工介入。

为什么运维场景不适合完全自治？

运维动作可能影响线上服务。重启、扩容、回滚、改配置等动作必须有权限、审批、确认和审计，不能只靠模型判断。

多 Agent 如何共享状态？

用结构化任务状态保存目标、计划、工具结果、证据、风险等级、当前步骤和版本，角色之间读写同一状态而不是互相传自然语言。

什么时候退回单 Agent 更好？

当任务低风险、步骤少、工具少、延迟敏感且错误成本低时，单 Agent 更简单，也更容易验证和维护。