60 秒回答模板

Agent 的速度和推理精度不是简单二选一。合理做法是按任务风险和价值分层:低风险任务走快速路径,高价值复杂任务走深度推理或多步检索,并用可回放评测和线上 A/B 判断每个优化是否值得。 任务先分层:按风险、用户等待容忍度、业务价值、证据需求和可逆性分成快速回答、检索增强、深度规划和人工确认。不同层使用不同模型、上下文和工具预算。 级联降低平均延迟:先用轻量模型、缓存、关键词/向量召回或规则判断能否解决;不能解决再升级到更大模型、Rerank、多轮规划或多 Agent 校验。 并行和早停结合:可并行检索多个索引、并发调用无依赖工具、让模型边生成边校验关键槽位。若低成本路径已达到置信阈值,应早停而不是继续跑完整链路。 精度要有证据约束:提升推理精度不能只增加思考长度。要引入证据召回、结构化中间状态、工具结果校验和答案一致性检查,避免慢但仍然错。 验证看端到端收益:离线看任务成功率、证据正确率和错误类型;线上看 TTFT、总耗时、放弃率、满意度、成本和人工接管率。最终以分层策略的整体收益为准。 最后要把方案落到可验证的指标、失败兜底和迭代闭环上。面试里不要只讲概念名词,要说明边界、取舍、数据来源、线上观测和出问题后的回滚或人工介入。

考点 风险分层
难度 真实面经题
回答目标 展示你能把 Agent 推理性能优化成可度量的分层系统设计。

深入解析

01

任务先分层

按风险、用户等待容忍度、业务价值、证据需求和可逆性分成快速回答、检索增强、深度规划和人工确认。不同层使用不同模型、上下文和工具预算。

02

级联降低平均延迟

先用轻量模型、缓存、关键词/向量召回或规则判断能否解决;不能解决再升级到更大模型、Rerank、多轮规划或多 Agent 校验。

03

并行和早停结合

可并行检索多个索引、并发调用无依赖工具、让模型边生成边校验关键槽位。若低成本路径已达到置信阈值,应早停而不是继续跑完整链路。

04

精度要有证据约束

提升推理精度不能只增加思考长度。要引入证据召回、结构化中间状态、工具结果校验和答案一致性检查,避免慢但仍然错。

05

验证看端到端收益

离线看任务成功率、证据正确率和错误类型;线上看 TTFT、总耗时、放弃率、满意度、成本和人工接管率。最终以分层策略的整体收益为准。

易错点

  • 把快和准当成单一模型选择问题,不做任务分层。
  • 为了精度盲目增加推理轮次,延迟上升但错误类型没变。
  • 只看平均延迟,不看 P95、放弃率和用户可感知等待。
  • 没有快速路径置信阈值,低质量答案直接返回。
  • 优化只跑离线集,不做线上成本和满意度验证。

面试官追问

先召回再精排和单次生成如何选择?

知识依赖强、证据要求高的任务适合召回再精排;开放闲聊或简单解释可直接生成。关键是看证据需求和延迟预算。

如何避免为了快牺牲太多质量?

给快速路径设置置信阈值和风险边界,低置信或高风险任务必须升级到检索、重排、校验或人工确认。

速度优化最先看哪些指标?

先拆 TTFT、检索耗时、模型耗时、工具耗时、排队耗时和总耗时,再看每个阶段对成功率和成本的影响。

多 Agent 校验什么时候值得用?

适合高价值、高风险、答案必须可解释的任务。不适合低风险高频任务默认启用,因为成本和延迟会明显上升。