Agent 或 LLM 应用的评估数据集规模如何确定，bad case 应按任务类型、工具链路、检索、生成、成本和风险哪些维度分析？｜阿里巴巴测开面经解析

60 秒回答模板

Agent 或 LLM 应用的评估数据集规模不是一个固定数字，而是由评估目的决定。冷启动阶段可以先做 50 到 100 条高质量样本，用来暴露明显问题和打通评测链路；进入回归阶段后，通常需要 200 到 500 条分层样本覆盖主要任务类型、用户意图、语言风格、边界输入和高频工具链路；如果是高风险业务、复杂多工具 Agent 或需要比较多个模型版本，就需要更大规模样本，并且按关键分层保证每类都有足够样本量。比规模更重要的是分层覆盖。Agent 评估要按任务类型拆，比如问答、检索总结、数据查询、工单处理、代码执行、工具编排、多轮澄清和拒答；按链路拆，比如是否调用工具、调用几步、是否依赖检索、是否需要写操作、是否有权限判断；按风险拆，比如低风险建议、业务决策、资金相关、隐私相关和不可逆操作。每个样本要有输入、期望行为、可接受答案范围、工具期望、评分标准和风险标签。 bad case 分析应从结果错误追到链路错误。任务理解错，要看意图分类和上下文记忆；工具链路错，要看工具选择、参数生成、调用顺序、异常处理和权限校验；检索错，要看召回、重排、上下文拼接和来源可信度；生成错，要看事实性、格式、遗漏、幻觉和语气；成本错，要看 token、工具次数、重试和超时；风险错，要看隐私泄露、越权操作、不当建议和安全拒答。最终把 bad case 回流到数据集，形成版本化回归集，而不是只修单个 prompt。

考点 规模由目标决定

难度 真实面经题

回答目标 证明候选人理解 LLM 应用测试不是简单准备一批问答，而是建立覆盖任务、链路、风险和成本的评估工程体系，并能把 bad case 转化为持续改进资产。

深入解析

明确评估目标

先区分上线准入、模型对比、prompt 回归、工具链路测试、安全测试和成本测试。不同目标需要不同规模和标注粒度，不能用一个固定样本数回答所有 Agent 或 LLM 应用。

确定规模阶段

冷启动 50 到 100 条，常规回归 200 到 500 条，高风险或复杂 Agent 继续扩充分层样本。第一版不必盲目追求大规模，但必须覆盖关键任务；成熟阶段则要保证主要分层都有足够样本量。

做样本分层

按任务类型、用户意图、工具链路、检索依赖、多轮复杂度、语言和风险等级覆盖。Agent 的失败常发生在中间过程，所以样本设计要覆盖工具选择、参数生成、权限判断、检索结果和拒答边界。

设计评分标准

结合自动指标、规则校验、LLM-as-judge、人工复核和关键用例硬性断言。高风险场景不能完全依赖自动评分，必须有人审校准和不可触碰的安全红线。

建立 bad case taxonomy

从任务理解、工具调用、检索、生成、成本、时延和风险逐层定位。只说模型答错没有行动价值，必须进一步判断是召回漏了、工具参数错了、模型幻觉了，还是安全策略没有拦住。

维护版本闭环

新增线上 bad case、标注修复预期、进入回归集，并记录模型、prompt、工具和数据版本。修完单个样例不代表体系变好，只有进入版本化回归，才不会在后续迭代中反复退化。

易错点

只问需要多少条数据，不说明任务分层、风险等级和评估目的。
只评最终回答，忽略工具调用过程、检索质量和中间状态。
bad case 只写模型答错，没有定位到召回、工具、参数、生成或安全策略。
评估样本没有期望行为和评分标准，导致不同评审者结论不一致。
完全依赖 LLM-as-judge，不做人审校准和关键规则断言。
线上问题修完就结束，没有沉淀到版本化回归数据集。

面试官追问

第一版评估集应该做多大？

如果是新应用，先做 50 到 100 条高质量分层样本更务实，目标是打通评测流程和发现主要缺陷。等任务边界清楚后，再扩到 200 到 500 条做稳定回归。

Agent 评估是否可以只看最终答案？

不可以。Agent 的失败经常发生在中间过程，例如选错工具、参数错误、重复调用、权限绕过或检索上下文污染。最终答案正确也可能过程高成本或有风险。

bad case 应该如何归因？

先判断是输入理解、计划分解、工具选择、工具参数、检索召回、上下文压缩、生成表达、系统异常还是安全策略问题。归因后再决定是补数据、改 prompt、改工具 schema、加规则还是调整模型。

如何避免评估集被模型或 prompt 过拟合？

要保留公开回归集和隐藏集，新增 bad case 时记录来源和版本，避免只针对固定题目调 prompt。重要版本发布前用隐藏集、线上抽样和人工复核交叉验证。