真实面经题目 · 原创解析
AI 用例分析工具调用大模型时,如何选择模型并评估识别准确率?
这题考测试开发场景下 LLM 用例分析工具的模型选择和准确率评估,答案要覆盖任务定义、模型取舍、标注基准、识别指标、阈值和错误分析。
真实面经题目 · 原创解析
这题考测试开发场景下 LLM 用例分析工具的模型选择和准确率评估,答案要覆盖任务定义、模型取舍、标注基准、识别指标、阈值和错误分析。
我会先明确 AI 用例分析工具到底要识别什么,比如从需求文档中抽取功能点、生成测试点、识别边界条件、发现缺失场景、分类优先级或匹配已有用例。模型选择不能只看大模型名气,而要看任务复杂度、数据敏感性、成本、延迟、可控性和维护方式。可以先用托管通用模型做基线,配合 prompt 和少样本示例;如果领域术语多、格式稳定、数据不能外发或成本压力大,再评估私有化模型、微调或蒸馏。准确率评估要建立人工标注的 benchmark,覆盖不同业务模块、需求质量、长短文档和异常表达。指标按任务拆:抽取类看 precision、recall、F1,分类类看准确率和混淆矩阵,生成测试点看覆盖率、重复率、无效率、人工采纳率和严重漏测率。上线时要设置置信阈值和人工复核机制,持续做错误分析,把漏识别、误识别、重复生成和规则不一致样本回流到评测集和模型策略。
AI 用例分析不是一个模糊能力。它可能包括需求解析、功能点抽取、边界条件识别、测试点生成、用例去重、风险分级或已有用例匹配。不同任务的输出形态和评估指标不同,必须先确定工具要解决哪一类问题。
模型选择要综合效果、成本、延迟、数据安全、部署方式、可解释性和维护成本。通用托管模型适合快速验证和复杂理解;私有化或微调模型适合数据敏感、领域格式稳定、调用量大或需要更强可控性的场景。不能默认一定要自训练。
需要建设一套人工标注 benchmark,覆盖不同模块、文档长度、需求清晰度、异常表达、历史缺陷和高风险业务。标注要有明确规则,例如什么算功能点、什么算边界条件、生成的测试点是否有效,否则模型分数没有可比性。
抽取和识别类任务看 precision、recall、F1,避免只看准确率;分类任务看准确率、召回和混淆矩阵;生成测试点要看需求覆盖率、重复率、无效率、人工采纳率、严重漏测率和人工修改成本。测试场景尤其要关注漏识别,因为漏掉关键风险比多生成几个低价值用例更危险。
生产使用时可以按置信度和风险等级决定自动通过、提示人工复核或拒绝输出。错误分析要把漏识别、误识别、重复生成、格式不合规、领域术语错误和规则冲突分开,再回到 prompt、规则、检索材料、模型选择或微调数据中迭代。
榜单任务和用例分析任务不一定一致。测试场景还要看领域术语、长文档、结构化输出、漏识别风险、成本和数据安全。
生成任务不能只看逐字匹配,要看需求覆盖、有效性、重复率、严重漏测、人工采纳和修改成本,并配合人工评审规则。
当 prompt 和检索增强无法稳定解决领域格式、术语和输出规范问题,且有足够高质量标注数据和调用规模时,再考虑微调。
可以进入人工复核、要求模型补充依据、只作为建议展示,或在高风险模块直接不自动采纳。