做 AI 项目时如何选择和使用大模型？｜高频面试题解析

60 秒回答模板

可以按选型流程回答。第一，定义业务任务和成功指标，例如问答准确率、代码通过率、转人工率、审核通过率、响应时间和单次成本；第二，整理真实样本和边界样本，构建离线评测集，不只看公开 benchmark；第三，比较候选模型的能力、上下文长度、结构化输出、函数调用、多模态、稳定性、价格、限流和数据合规；第四，按场景分层使用模型，简单任务用小模型或规则，高价值复杂任务用强模型，必要时加入检索、工具调用和人工审核；第五，线上持续监控质量、成本、延迟和安全，并保持供应商抽象层，方便模型升级、回滚和切换。

考点 从业务目标出发

主线 建立真实评测

易错点 只看榜单排名或演示效果，没有用真实业务样本评测。

深入解析

从业务目标出发

模型选型不能先问哪个模型最强，而要先问业务要解决什么问题。客服问答、合同审核、代码生成、搜索改写、内容创作、数据分析对准确率、延迟、成本和可解释性的要求完全不同。明确成功指标后，才能判断模型能力是否真的转化为业务收益。

建立真实评测

公开榜单只能提供参考，不能替代业务评测。项目应收集真实用户请求、历史失败样本、长尾边界、敏感场景和高频任务，设计自动和人工结合的评分方式。评测内容要覆盖正确性、指令遵循、格式稳定、幻觉、拒答、工具调用和多轮一致性。

比较关键能力

候选模型需要从多个维度比较：推理能力、专业知识、长上下文处理、结构化输出、函数调用、多模态、语言支持、流式响应、并发限额、稳定性、价格、缓存能力和生态工具。不同项目权重不同，例如实时聊天重视首 token 延迟，后台报告更重视完整性和成本。

分层组合使用

成熟 AI 项目通常不会所有请求都用同一个最强模型。可以用规则或小模型处理分类、改写、路由和低风险任务，用强模型处理复杂推理和高价值生成，用 RAG 和工具调用补足事实与实时数据，用人工审核覆盖高风险结果。分层策略能在质量、成本和延迟之间取得更稳的平衡。

保持可替换架构

模型能力、价格和服务稳定性都会变化，因此项目架构应避免和单一供应商深度耦合。可以封装统一调用层，标准化消息格式、工具协议、重试、超时、日志、指标和评测流程。这样在模型升级、降级、切换或多供应商容灾时，业务层不需要大规模改造。

易错点

只看榜单排名或演示效果，没有用真实业务样本评测。
所有任务都调用最强模型，导致成本和延迟失控，也缺少低风险场景的轻量方案。
忽略数据安全、权限、审计和供应商稳定性，只比较生成质量。
没有封装调用层和评测体系，模型升级或切换时只能靠人工感觉判断效果。

面试官追问

公开模型榜单有没有参考价值？

有参考价值，但只能作为初筛。最终要看业务评测，因为真实任务中的上下文、格式、知识库、成本和延迟约束往往和榜单测试不同。

什么时候用小模型？

低风险、结构清晰、对推理要求不高的任务适合小模型，例如分类、路由、简单改写、摘要预处理和格式转换。前提是用评测证明质量满足要求。

如何控制模型成本？

可以减少无效上下文、使用缓存、压缩提示词、按任务路由模型、限制输出长度、减少失败重试，并按业务结果核算成本，而不是只看单次调用价格。

为什么要做供应商抽象层？

因为模型价格、能力、限流和稳定性都会变化。统一抽象层能让业务复用日志、重试、监控、工具调用和评测逻辑，降低未来切换或多模型并行的成本。