60 秒回答模板

我会先明确 AI 用例分析工具到底要识别什么,比如从需求文档中抽取功能点、生成测试点、识别边界条件、发现缺失场景、分类优先级或匹配已有用例。模型选择不能只看大模型名气,而要看任务复杂度、数据敏感性、成本、延迟、可控性和维护方式。可以先用托管通用模型做基线,配合 prompt 和少样本示例;如果领域术语多、格式稳定、数据不能外发或成本压力大,再评估私有化模型、微调或蒸馏。准确率评估要建立人工标注的 benchmark,覆盖不同业务模块、需求质量、长短文档和异常表达。指标按任务拆:抽取类看 precision、recall、F1,分类类看准确率和混淆矩阵,生成测试点看覆盖率、重复率、无效率、人工采纳率和严重漏测率。上线时要设置置信阈值和人工复核机制,持续做错误分析,把漏识别、误识别、重复生成和规则不一致样本回流到评测集和模型策略。

考点 任务边界
难度 真实面经题
回答目标 评估用例分析准确率

深入解析

01

先定义用例分析任务边界

AI 用例分析不是一个模糊能力。它可能包括需求解析、功能点抽取、边界条件识别、测试点生成、用例去重、风险分级或已有用例匹配。不同任务的输出形态和评估指标不同,必须先确定工具要解决哪一类问题。

02

模型选择要从约束出发

模型选择要综合效果、成本、延迟、数据安全、部署方式、可解释性和维护成本。通用托管模型适合快速验证和复杂理解;私有化或微调模型适合数据敏感、领域格式稳定、调用量大或需要更强可控性的场景。不能默认一定要自训练。

03

人工标注基准是准确率评估基础

需要建设一套人工标注 benchmark,覆盖不同模块、文档长度、需求清晰度、异常表达、历史缺陷和高风险业务。标注要有明确规则,例如什么算功能点、什么算边界条件、生成的测试点是否有效,否则模型分数没有可比性。

04

指标要按识别任务拆分

抽取和识别类任务看 precision、recall、F1,避免只看准确率;分类任务看准确率、召回和混淆矩阵;生成测试点要看需求覆盖率、重复率、无效率、人工采纳率、严重漏测率和人工修改成本。测试场景尤其要关注漏识别,因为漏掉关键风险比多生成几个低价值用例更危险。

05

上线要有阈值、复核和错误回流

生产使用时可以按置信度和风险等级决定自动通过、提示人工复核或拒绝输出。错误分析要把漏识别、误识别、重复生成、格式不合规、领域术语错误和规则冲突分开,再回到 prompt、规则、检索材料、模型选择或微调数据中迭代。

易错点

  • 没有定义用例分析任务边界,导致评估对象不清。
  • 默认选择最大或最新模型,没有考虑成本、延迟、安全和可控性。
  • 没有人工标注 benchmark,只靠个别样例判断准确率。
  • 只看准确率,不看 precision、recall、覆盖率和严重漏测。
  • 把生成结果直接上线,没有置信阈值、人工复核和错误回流。

面试官追问

模型选择时为什么不能只看通用榜单?

榜单任务和用例分析任务不一定一致。测试场景还要看领域术语、长文档、结构化输出、漏识别风险、成本和数据安全。

生成测试点如何评估准确率?

生成任务不能只看逐字匹配,要看需求覆盖、有效性、重复率、严重漏测、人工采纳和修改成本,并配合人工评审规则。

什么时候考虑微调?

当 prompt 和检索增强无法稳定解决领域格式、术语和输出规范问题,且有足够高质量标注数据和调用规模时,再考虑微调。

如何处理低置信度输出?

可以进入人工复核、要求模型补充依据、只作为建议展示,或在高风险模块直接不自动采纳。