真实面经题目 · 原创解析

Agent 或 LLM 应用的评估数据集规模如何确定,bad case 应按任务类型、工具链路、检索、生成、成本和风险哪些维度分析?

这题考察 Agent 或 LLM 应用评估体系。数据集规模不应拍脑袋,而要按任务复杂度、风险等级、链路覆盖、指标置信度和迭代阶段确定;bad case 分析要覆盖任务类型、工具调用、检索、生成、成本和风险。

出现于:阿里巴巴 · 测开

60 秒回答模板

Agent 或 LLM 应用的评估数据集规模不是一个固定数字,而是由评估目的决定。冷启动阶段可以先做 50 到 100 条高质量样本,用来暴露明显问题和打通评测链路;进入回归阶段后,通常需要 200 到 500 条分层样本覆盖主要任务类型、用户意图、语言风格、边界输入和高频工具链路;如果是高风险业务、复杂多工具 Agent 或需要比较多个模型版本,就需要更大规模样本,并且按关键分层保证每类都有足够样本量。 比规模更重要的是分层覆盖。Agent 评估要按任务类型拆,比如问答、检索总结、数据查询、工单处理、代码执行、工具编排、多轮澄清和拒答;按链路拆,比如是否调用工具、调用几步、是否依赖检索、是否需要写操作、是否有权限判断;按风险拆,比如低风险建议、业务决策、资金相关、隐私相关和不可逆操作。每个样本要有输入、期望行为、可接受答案范围、工具期望、评分标准和风险标签。 bad case 分析应从结果错误追到链路错误。任务理解错,要看意图分类和上下文记忆;工具链路错,要看工具选择、参数生成、调用顺序、异常处理和权限校验;检索错,要看召回、重排、上下文拼接和来源可信度;生成错,要看事实性、格式、遗漏、幻觉和语气;成本错,要看 token、工具次数、重试和超时;风险错,要看隐私泄露、越权操作、不当建议和安全拒答。最终把 bad case 回流到数据集,形成版本化回归集,而不是只修单个 prompt。

考点 规模由目标决定
难度 真实面经题
回答目标 证明候选人理解 LLM 应用测试不是简单准备一批问答,而是建立覆盖任务、链路、风险和成本的评估工程体系,并能把 bad case 转化为持续改进资产。

深入解析

01

明确评估目标

先区分上线准入、模型对比、prompt 回归、工具链路测试、安全测试和成本测试。不同目标需要不同规模和标注粒度,不能用一个固定样本数回答所有 Agent 或 LLM 应用。

02

确定规模阶段

冷启动 50 到 100 条,常规回归 200 到 500 条,高风险或复杂 Agent 继续扩充分层样本。第一版不必盲目追求大规模,但必须覆盖关键任务;成熟阶段则要保证主要分层都有足够样本量。

03

做样本分层

按任务类型、用户意图、工具链路、检索依赖、多轮复杂度、语言和风险等级覆盖。Agent 的失败常发生在中间过程,所以样本设计要覆盖工具选择、参数生成、权限判断、检索结果和拒答边界。

04

设计评分标准

结合自动指标、规则校验、LLM-as-judge、人工复核和关键用例硬性断言。高风险场景不能完全依赖自动评分,必须有人审校准和不可触碰的安全红线。

05

建立 bad case taxonomy

从任务理解、工具调用、检索、生成、成本、时延和风险逐层定位。只说模型答错没有行动价值,必须进一步判断是召回漏了、工具参数错了、模型幻觉了,还是安全策略没有拦住。

06

维护版本闭环

新增线上 bad case、标注修复预期、进入回归集,并记录模型、prompt、工具和数据版本。修完单个样例不代表体系变好,只有进入版本化回归,才不会在后续迭代中反复退化。

易错点

  • 只问需要多少条数据,不说明任务分层、风险等级和评估目的。
  • 只评最终回答,忽略工具调用过程、检索质量和中间状态。
  • bad case 只写模型答错,没有定位到召回、工具、参数、生成或安全策略。
  • 评估样本没有期望行为和评分标准,导致不同评审者结论不一致。
  • 完全依赖 LLM-as-judge,不做人审校准和关键规则断言。
  • 线上问题修完就结束,没有沉淀到版本化回归数据集。

面试官追问

第一版评估集应该做多大?

如果是新应用,先做 50 到 100 条高质量分层样本更务实,目标是打通评测流程和发现主要缺陷。等任务边界清楚后,再扩到 200 到 500 条做稳定回归。

Agent 评估是否可以只看最终答案?

不可以。Agent 的失败经常发生在中间过程,例如选错工具、参数错误、重复调用、权限绕过或检索上下文污染。最终答案正确也可能过程高成本或有风险。

bad case 应该如何归因?

先判断是输入理解、计划分解、工具选择、工具参数、检索召回、上下文压缩、生成表达、系统异常还是安全策略问题。归因后再决定是补数据、改 prompt、改工具 schema、加规则还是调整模型。

如何避免评估集被模型或 prompt 过拟合?

要保留公开回归集和隐藏集,新增 bad case 时记录来源和版本,避免只针对固定题目调 prompt。重要版本发布前用隐藏集、线上抽样和人工复核交叉验证。