60 秒回答模板

智能运维助手要处理告警理解、根因定位、查询执行、修复建议和风险控制。Planner/Executor/Supervisor 模式的价值在于把规划、执行和监督拆开,让高风险运维动作可审计、可回滚、可人工确认,而不是让一个 Agent 从头猜到尾。 Planner 负责目标拆解:Planner 将告警或用户问题拆成诊断步骤,决定要查哪些指标、日志、配置和依赖。它不直接执行危险动作,而是输出计划、假设和需要的工具。 Executor 负责受控执行:Executor 根据计划调用监控、日志、CMDB、发布系统或工单系统,执行查询、聚合和只读分析。写操作要通过权限校验、审批或人工确认。 Supervisor 负责纠偏:Supervisor 检查计划是否偏离、工具结果是否异常、是否进入循环、是否触碰高风险操作,并在必要时打断、重规划或升级人工。 单 Agent 更适合轻任务:如果只是 FAQ、简单日志查询或低风险摘要,单 Agent 延迟低、实现简单。复杂排障、多工具依赖和高风险动作才更适合三角色拆分。 工程代价要承认:多 Agent 会增加状态同步、角色 Prompt、trace、调度和测试成本。必须用统一状态、幂等任务、权限模型和回放能力控制复杂度。 最后要把方案落到可验证的指标、失败兜底和迭代闭环上。面试里不要只讲概念名词,要说明边界、取舍、数据来源、线上观测和出问题后的回滚或人工介入。

考点 规划执行分离
难度 真实面经题
回答目标 让面试官看到你理解运维 Agent 的核心是受控自治和可审计执行。

深入解析

01

Planner 负责目标拆解

Planner 将告警或用户问题拆成诊断步骤,决定要查哪些指标、日志、配置和依赖。它不直接执行危险动作,而是输出计划、假设和需要的工具。

02

Executor 负责受控执行

Executor 根据计划调用监控、日志、CMDB、发布系统或工单系统,执行查询、聚合和只读分析。写操作要通过权限校验、审批或人工确认。

03

Supervisor 负责纠偏

Supervisor 检查计划是否偏离、工具结果是否异常、是否进入循环、是否触碰高风险操作,并在必要时打断、重规划或升级人工。

04

单 Agent 更适合轻任务

如果只是 FAQ、简单日志查询或低风险摘要,单 Agent 延迟低、实现简单。复杂排障、多工具依赖和高风险动作才更适合三角色拆分。

05

工程代价要承认

多 Agent 会增加状态同步、角色 Prompt、trace、调度和测试成本。必须用统一状态、幂等任务、权限模型和回放能力控制复杂度。

易错点

  • 把三角色只当成命名差异,不说明责任和权限边界。
  • 让 Executor 自由决定高风险写操作,缺少审批和审计。
  • 没有统一状态,角色之间靠长文本转述导致信息丢失。
  • 所有问题都套多 Agent,造成延迟和维护成本过高。
  • 只讲排障成功,不讲失败回退、循环控制和人工升级。

面试官追问

Supervisor 和 Planner 的区别是什么?

Planner 负责制定诊断路径,Supervisor 负责检查路径执行是否安全、完整、有效,并在异常时触发纠偏或人工介入。

为什么运维场景不适合完全自治?

运维动作可能影响线上服务。重启、扩容、回滚、改配置等动作必须有权限、审批、确认和审计,不能只靠模型判断。

多 Agent 如何共享状态?

用结构化任务状态保存目标、计划、工具结果、证据、风险等级、当前步骤和版本,角色之间读写同一状态而不是互相传自然语言。

什么时候退回单 Agent 更好?

当任务低风险、步骤少、工具少、延迟敏感且错误成本低时,单 Agent 更简单,也更容易验证和维护。