60 秒回答模板

Agent 高并发的瓶颈不只在 Web 服务,还包括模型额度、GPU/推理服务、工具服务、向量库、队列、数据库和成本预算。弹性伸缩要围绕完整链路设计,并用监控和告警提前发现雪崩风险。 容量对象分层:分别评估入口 QPS、会话并发、队列长度、模型请求、token 吞吐、工具 QPS、向量库查询和数据库写入。不同资源的扩缩容速度和上限不同。 伸缩指标要组合:CPU 只是基础指标。Agent 服务更应看排队时间、P95/P99 延迟、最老任务年龄、模型限流、工具错误率、token/s、成本消耗和成功率。 队列和限流保护:突发流量先进入优先级队列,按租户、任务类型和风险等级限流。低优先级任务可延迟、降级或暂停,保障在线关键任务。 告警分级处理:告警应分为容量预警、错误率告警、业务质量告警和成本告警,并绑定自动动作,如扩容、切模型、熔断工具、降级、通知值班和回滚配置。 观测要能归因:每个请求要有 trace,记录模型、工具、检索、版本、租户和成本。否则即使告警触发,也无法定位是模型慢、工具挂、检索慢还是队列积压。 最后要把方案落到可验证的指标、失败兜底和迭代闭环上。面试里不要只讲概念名词,要说明边界、取舍、数据来源、线上观测和出问题后的回滚或人工介入。

考点 全链路容量
难度 真实面经题
回答目标 展示你能从生产系统角度设计 Agent 的弹性、监控和稳定性治理。

深入解析

01

容量对象分层

分别评估入口 QPS、会话并发、队列长度、模型请求、token 吞吐、工具 QPS、向量库查询和数据库写入。不同资源的扩缩容速度和上限不同。

02

伸缩指标要组合

CPU 只是基础指标。Agent 服务更应看排队时间、P95/P99 延迟、最老任务年龄、模型限流、工具错误率、token/s、成本消耗和成功率。

03

队列和限流保护

突发流量先进入优先级队列,按租户、任务类型和风险等级限流。低优先级任务可延迟、降级或暂停,保障在线关键任务。

04

告警分级处理

告警应分为容量预警、错误率告警、业务质量告警和成本告警,并绑定自动动作,如扩容、切模型、熔断工具、降级、通知值班和回滚配置。

05

观测要能归因

每个请求要有 trace,记录模型、工具、检索、版本、租户和成本。否则即使告警触发,也无法定位是模型慢、工具挂、检索慢还是队列积压。

易错点

  • 只讲 HPA 加机器,不考虑模型额度和工具瓶颈。
  • 没有优先级,低价值批任务挤占在线用户请求。
  • 告警只有阈值,没有自动动作和责任人。
  • 监控只有平均延迟,缺少 P95、队列年龄和错误归因。
  • 忽略成本指标,高并发下重试和长上下文失控。

面试官追问

为什么 CPU 不足以作为 Agent 扩容指标?

很多瓶颈在外部模型、token 吞吐、工具服务、向量库或队列等待上,CPU 正常也可能用户体验很差。

如何防止扩容也救不了的情况?

要有上游限流、优先级队列、降级策略和熔断。外部模型限额或下游工具故障时,单纯加机器无法解决。

核心业务质量指标有哪些?

任务成功率、有效解决率、误答率、人工接管率、用户放弃率、投诉率和关键场景 SLA,比纯技术指标更能反映服务质量。

成本告警为什么重要?

Agent 高并发可能通过重试、长上下文和多工具调用迅速放大成本。成本告警能避免系统在质量没有提升时烧掉预算。