真实面经题目 · 原创解析
Agent 或 LLM 应用的评估数据集规模如何确定,bad case 应按任务类型、工具链路、检索、生成、成本和风险哪些维度分析?
这题考察 Agent 或 LLM 应用评估体系。数据集规模不应拍脑袋,而要按任务复杂度、风险等级、链路覆盖、指标置信度和迭代阶段确定;bad case 分析要覆盖任务类型、工具调用、检索、生成、成本和风险。
真实面经题目 · 原创解析
这题考察 Agent 或 LLM 应用评估体系。数据集规模不应拍脑袋,而要按任务复杂度、风险等级、链路覆盖、指标置信度和迭代阶段确定;bad case 分析要覆盖任务类型、工具调用、检索、生成、成本和风险。
Agent 或 LLM 应用的评估数据集规模不是一个固定数字,而是由评估目的决定。冷启动阶段可以先做 50 到 100 条高质量样本,用来暴露明显问题和打通评测链路;进入回归阶段后,通常需要 200 到 500 条分层样本覆盖主要任务类型、用户意图、语言风格、边界输入和高频工具链路;如果是高风险业务、复杂多工具 Agent 或需要比较多个模型版本,就需要更大规模样本,并且按关键分层保证每类都有足够样本量。 比规模更重要的是分层覆盖。Agent 评估要按任务类型拆,比如问答、检索总结、数据查询、工单处理、代码执行、工具编排、多轮澄清和拒答;按链路拆,比如是否调用工具、调用几步、是否依赖检索、是否需要写操作、是否有权限判断;按风险拆,比如低风险建议、业务决策、资金相关、隐私相关和不可逆操作。每个样本要有输入、期望行为、可接受答案范围、工具期望、评分标准和风险标签。 bad case 分析应从结果错误追到链路错误。任务理解错,要看意图分类和上下文记忆;工具链路错,要看工具选择、参数生成、调用顺序、异常处理和权限校验;检索错,要看召回、重排、上下文拼接和来源可信度;生成错,要看事实性、格式、遗漏、幻觉和语气;成本错,要看 token、工具次数、重试和超时;风险错,要看隐私泄露、越权操作、不当建议和安全拒答。最终把 bad case 回流到数据集,形成版本化回归集,而不是只修单个 prompt。
先区分上线准入、模型对比、prompt 回归、工具链路测试、安全测试和成本测试。不同目标需要不同规模和标注粒度,不能用一个固定样本数回答所有 Agent 或 LLM 应用。
冷启动 50 到 100 条,常规回归 200 到 500 条,高风险或复杂 Agent 继续扩充分层样本。第一版不必盲目追求大规模,但必须覆盖关键任务;成熟阶段则要保证主要分层都有足够样本量。
按任务类型、用户意图、工具链路、检索依赖、多轮复杂度、语言和风险等级覆盖。Agent 的失败常发生在中间过程,所以样本设计要覆盖工具选择、参数生成、权限判断、检索结果和拒答边界。
结合自动指标、规则校验、LLM-as-judge、人工复核和关键用例硬性断言。高风险场景不能完全依赖自动评分,必须有人审校准和不可触碰的安全红线。
从任务理解、工具调用、检索、生成、成本、时延和风险逐层定位。只说模型答错没有行动价值,必须进一步判断是召回漏了、工具参数错了、模型幻觉了,还是安全策略没有拦住。
新增线上 bad case、标注修复预期、进入回归集,并记录模型、prompt、工具和数据版本。修完单个样例不代表体系变好,只有进入版本化回归,才不会在后续迭代中反复退化。
如果是新应用,先做 50 到 100 条高质量分层样本更务实,目标是打通评测流程和发现主要缺陷。等任务边界清楚后,再扩到 200 到 500 条做稳定回归。
不可以。Agent 的失败经常发生在中间过程,例如选错工具、参数错误、重复调用、权限绕过或检索上下文污染。最终答案正确也可能过程高成本或有风险。
先判断是输入理解、计划分解、工具选择、工具参数、检索召回、上下文压缩、生成表达、系统异常还是安全策略问题。归因后再决定是补数据、改 prompt、改工具 schema、加规则还是调整模型。
要保留公开回归集和隐藏集,新增 bad case 时记录来源和版本,避免只针对固定题目调 prompt。重要版本发布前用隐藏集、线上抽样和人工复核交叉验证。