真实面经题目 · 原创解析

Agent 评估体系应该覆盖哪些维度,如何分别衡量规划能力、任务成功率和幻觉率?

这题考察 Agent 评估体系设计。好的回答要把评估拆成任务成功、规划质量、工具调用质量、事实一致性、幻觉率、安全合规、成本延迟和用户体验等维度。规划能力和幻觉率不能都靠主观打分,应该结合离线任务集、步骤级 trace、工具结果、证据对齐、人工标注和线上指标。

出现于:阿里巴巴 · AI 应用开发

60 秒回答模板

Agent 评估我会分为结果指标和过程指标。结果层看任务成功率、用户满意度、人工接管率、安全违规率和成本延迟;过程层看计划是否合理、步骤是否可执行、工具是否选对、参数是否正确、状态是否推进、输出是否有证据支撑。规划能力可以用任务分解正确率、步骤依赖合法率、无效步骤率、重规划成功率和最终达成率衡量;幻觉率要看模型输出中没有证据、与工具结果矛盾、引用不存在、越权推断和错误自信的比例。评估方式应组合规则校验、自动测试、LLM judge、人工标注和线上 A/B,不能只让模型自评。

考点 结果与过程都要看
难度 真实面经题
回答目标 证明你能建立 Agent 从离线评测到线上监控的质量体系,并能把规划能力和幻觉问题量化定位。

深入解析

01

评估分层

Agent 不是单次问答,评估要覆盖目标理解、计划生成、工具执行、状态推进、最终输出和用户反馈。只看最终答案可能掩盖过程风险,只看过程又可能忽略用户目标是否真正完成,所以要同时做端到端和步骤级评估。

02

任务成功率

任务成功率衡量用户目标是否完成,可以按全成功、部分成功、失败、需人工接管分级。对于可验证任务可以用测试、数据库状态或业务事件判断;对于开放任务要有人工 rubric 或 LLM judge 辅助,并抽样复核一致性。

03

规划能力

规划能力可以拆成目标覆盖、步骤粒度、依赖顺序、工具匹配、约束保留和重规划能力。指标包括 plan validity、无效步骤率、遗漏关键步骤率、重复步骤率、执行中断后的重规划成功率。复杂任务还要看计划是否可解释、是否避免高风险动作。

04

幻觉率

Agent 幻觉不仅是最终回答编事实,还包括工具结果没返回却声称已完成、引用不存在来源、错误解释 API 返回、把用户没说过的信息写入记忆。评估要做证据对齐:答案中的事实是否能追溯到用户输入、检索文档、工具返回或业务系统。

05

工具质量

工具调用质量包括工具选择准确率、参数合法率、调用成功率、重试率、超时率和副作用安全率。很多 Agent 失败不是模型不会说,而是调用链路无法稳定执行,因此工具层指标要和模型输出质量分开看。

06

线上闭环

线上要监控成功率、用户修正次数、撤销率、人工接管率、延迟、token 成本和安全告警。评估集也要持续从线上失败样本回流,按错误类型补充 case,否则离线分数会逐渐和真实业务脱节。

易错点

  • 只说准确率、召回率,不结合 Agent 的计划、工具和状态推进特征。
  • 把幻觉率完全交给模型自评,没有证据对齐和人工复核。
  • 没有区分任务成功、规划质量、工具调用质量和用户体验指标。
  • 评估集不覆盖失败样本、边界场景和高风险副作用操作。

面试官追问

LLM judge 能不能作为主要评估?

可以用于语义质量和开放任务初筛,但不能单独作为主评估。事实、权限、数值、工具执行和安全违规要尽量用确定性规则、业务校验和人工抽检补足。

如何评估多轮 Agent?

要保存完整 trace,包括每轮用户输入、计划、工具调用、状态变化和最终输出。评估时既看最终任务完成,也看中间是否丢约束、是否重复询问、是否错误调用工具。

幻觉率分母怎么定义?

可以按答案级、事实 claim 级或任务级定义。更细的是 claim-level,把输出拆成事实断言,再判断每个断言是否有证据、是否冲突、是否越界。

规划能力差该怎么优化?

先分析是任务理解错、步骤模板缺失、工具描述不清还是上下文太长。优化手段包括分层 planner、任务模板、计划校验器、少量示例、检索相关 skill 和执行后重规划。