Agent 评估体系应该覆盖哪些维度，如何分别衡量规划能力、任务成功率和幻觉率？｜阿里巴巴 AI 应用开发面经解析

60 秒回答模板

Agent 评估我会分为结果指标和过程指标。结果层看任务成功率、用户满意度、人工接管率、安全违规率和成本延迟；过程层看计划是否合理、步骤是否可执行、工具是否选对、参数是否正确、状态是否推进、输出是否有证据支撑。规划能力可以用任务分解正确率、步骤依赖合法率、无效步骤率、重规划成功率和最终达成率衡量；幻觉率要看模型输出中没有证据、与工具结果矛盾、引用不存在、越权推断和错误自信的比例。评估方式应组合规则校验、自动测试、LLM judge、人工标注和线上 A/B，不能只让模型自评。

考点 结果与过程都要看

难度 真实面经题

回答目标 证明你能建立 Agent 从离线评测到线上监控的质量体系，并能把规划能力和幻觉问题量化定位。

深入解析

评估分层

Agent 不是单次问答，评估要覆盖目标理解、计划生成、工具执行、状态推进、最终输出和用户反馈。只看最终答案可能掩盖过程风险，只看过程又可能忽略用户目标是否真正完成，所以要同时做端到端和步骤级评估。

任务成功率

任务成功率衡量用户目标是否完成，可以按全成功、部分成功、失败、需人工接管分级。对于可验证任务可以用测试、数据库状态或业务事件判断；对于开放任务要有人工 rubric 或 LLM judge 辅助，并抽样复核一致性。

规划能力

规划能力可以拆成目标覆盖、步骤粒度、依赖顺序、工具匹配、约束保留和重规划能力。指标包括 plan validity、无效步骤率、遗漏关键步骤率、重复步骤率、执行中断后的重规划成功率。复杂任务还要看计划是否可解释、是否避免高风险动作。

幻觉率

Agent 幻觉不仅是最终回答编事实，还包括工具结果没返回却声称已完成、引用不存在来源、错误解释 API 返回、把用户没说过的信息写入记忆。评估要做证据对齐：答案中的事实是否能追溯到用户输入、检索文档、工具返回或业务系统。

工具质量

工具调用质量包括工具选择准确率、参数合法率、调用成功率、重试率、超时率和副作用安全率。很多 Agent 失败不是模型不会说，而是调用链路无法稳定执行，因此工具层指标要和模型输出质量分开看。

线上闭环

线上要监控成功率、用户修正次数、撤销率、人工接管率、延迟、token 成本和安全告警。评估集也要持续从线上失败样本回流，按错误类型补充 case，否则离线分数会逐渐和真实业务脱节。

易错点

只说准确率、召回率，不结合 Agent 的计划、工具和状态推进特征。
把幻觉率完全交给模型自评，没有证据对齐和人工复核。
没有区分任务成功、规划质量、工具调用质量和用户体验指标。
评估集不覆盖失败样本、边界场景和高风险副作用操作。

面试官追问

LLM judge 能不能作为主要评估？

可以用于语义质量和开放任务初筛，但不能单独作为主评估。事实、权限、数值、工具执行和安全违规要尽量用确定性规则、业务校验和人工抽检补足。

如何评估多轮 Agent？

要保存完整 trace，包括每轮用户输入、计划、工具调用、状态变化和最终输出。评估时既看最终任务完成，也看中间是否丢约束、是否重复询问、是否错误调用工具。

幻觉率分母怎么定义？

可以按答案级、事实 claim 级或任务级定义。更细的是 claim-level，把输出拆成事实断言，再判断每个断言是否有证据、是否冲突、是否越界。

规划能力差该怎么优化？

先分析是任务理解错、步骤模板缺失、工具描述不清还是上下文太长。优化手段包括分层 planner、任务模板、计划校验器、少量示例、检索相关 skill 和执行后重规划。