AI 用例分析工具调用大模型时，如何选择模型并评估识别准确率？｜网易测开面经解析

60 秒回答模板

我会先明确 AI 用例分析工具到底要识别什么，比如从需求文档中抽取功能点、生成测试点、识别边界条件、发现缺失场景、分类优先级或匹配已有用例。模型选择不能只看大模型名气，而要看任务复杂度、数据敏感性、成本、延迟、可控性和维护方式。可以先用托管通用模型做基线，配合 prompt 和少样本示例；如果领域术语多、格式稳定、数据不能外发或成本压力大，再评估私有化模型、微调或蒸馏。准确率评估要建立人工标注的 benchmark，覆盖不同业务模块、需求质量、长短文档和异常表达。指标按任务拆：抽取类看 precision、recall、F1，分类类看准确率和混淆矩阵，生成测试点看覆盖率、重复率、无效率、人工采纳率和严重漏测率。上线时要设置置信阈值和人工复核机制，持续做错误分析，把漏识别、误识别、重复生成和规则不一致样本回流到评测集和模型策略。

考点 任务边界

难度 真实面经题

回答目标 评估用例分析准确率

深入解析

先定义用例分析任务边界

AI 用例分析不是一个模糊能力。它可能包括需求解析、功能点抽取、边界条件识别、测试点生成、用例去重、风险分级或已有用例匹配。不同任务的输出形态和评估指标不同，必须先确定工具要解决哪一类问题。

模型选择要从约束出发

模型选择要综合效果、成本、延迟、数据安全、部署方式、可解释性和维护成本。通用托管模型适合快速验证和复杂理解；私有化或微调模型适合数据敏感、领域格式稳定、调用量大或需要更强可控性的场景。不能默认一定要自训练。

人工标注基准是准确率评估基础

需要建设一套人工标注 benchmark，覆盖不同模块、文档长度、需求清晰度、异常表达、历史缺陷和高风险业务。标注要有明确规则，例如什么算功能点、什么算边界条件、生成的测试点是否有效，否则模型分数没有可比性。

指标要按识别任务拆分

抽取和识别类任务看 precision、recall、F1，避免只看准确率；分类任务看准确率、召回和混淆矩阵；生成测试点要看需求覆盖率、重复率、无效率、人工采纳率、严重漏测率和人工修改成本。测试场景尤其要关注漏识别，因为漏掉关键风险比多生成几个低价值用例更危险。

上线要有阈值、复核和错误回流

生产使用时可以按置信度和风险等级决定自动通过、提示人工复核或拒绝输出。错误分析要把漏识别、误识别、重复生成、格式不合规、领域术语错误和规则冲突分开，再回到 prompt、规则、检索材料、模型选择或微调数据中迭代。

易错点

没有定义用例分析任务边界，导致评估对象不清。
默认选择最大或最新模型，没有考虑成本、延迟、安全和可控性。
没有人工标注 benchmark，只靠个别样例判断准确率。
只看准确率，不看 precision、recall、覆盖率和严重漏测。
把生成结果直接上线，没有置信阈值、人工复核和错误回流。

面试官追问

模型选择时为什么不能只看通用榜单？

榜单任务和用例分析任务不一定一致。测试场景还要看领域术语、长文档、结构化输出、漏识别风险、成本和数据安全。

生成测试点如何评估准确率？

生成任务不能只看逐字匹配，要看需求覆盖、有效性、重复率、严重漏测、人工采纳和修改成本，并配合人工评审规则。

什么时候考虑微调？

当 prompt 和检索增强无法稳定解决领域格式、术语和输出规范问题，且有足够高质量标注数据和调用规模时，再考虑微调。

如何处理低置信度输出？

可以进入人工复核、要求模型补充依据、只作为建议展示，或在高风险模块直接不自动采纳。