真实面经题目 · 原创解析
做 AI 项目时如何选择和使用大模型?
做 AI 项目选择和使用大模型,不能只看榜单或单次体验,而要从业务目标、任务类型、质量要求、成本预算、延迟约束、上下文长度、工具能力、数据安全、供应商稳定性和可观测性综合评估。正确姿势是小范围评测、多模型分层、持续监控和可替换架构。
真实面经题目 · 原创解析
做 AI 项目选择和使用大模型,不能只看榜单或单次体验,而要从业务目标、任务类型、质量要求、成本预算、延迟约束、上下文长度、工具能力、数据安全、供应商稳定性和可观测性综合评估。正确姿势是小范围评测、多模型分层、持续监控和可替换架构。
可以按选型流程回答。第一,定义业务任务和成功指标,例如问答准确率、代码通过率、转人工率、审核通过率、响应时间和单次成本;第二,整理真实样本和边界样本,构建离线评测集,不只看公开 benchmark;第三,比较候选模型的能力、上下文长度、结构化输出、函数调用、多模态、稳定性、价格、限流和数据合规;第四,按场景分层使用模型,简单任务用小模型或规则,高价值复杂任务用强模型,必要时加入检索、工具调用和人工审核;第五,线上持续监控质量、成本、延迟和安全,并保持供应商抽象层,方便模型升级、回滚和切换。
模型选型不能先问哪个模型最强,而要先问业务要解决什么问题。客服问答、合同审核、代码生成、搜索改写、内容创作、数据分析对准确率、延迟、成本和可解释性的要求完全不同。明确成功指标后,才能判断模型能力是否真的转化为业务收益。
公开榜单只能提供参考,不能替代业务评测。项目应收集真实用户请求、历史失败样本、长尾边界、敏感场景和高频任务,设计自动和人工结合的评分方式。评测内容要覆盖正确性、指令遵循、格式稳定、幻觉、拒答、工具调用和多轮一致性。
候选模型需要从多个维度比较:推理能力、专业知识、长上下文处理、结构化输出、函数调用、多模态、语言支持、流式响应、并发限额、稳定性、价格、缓存能力和生态工具。不同项目权重不同,例如实时聊天重视首 token 延迟,后台报告更重视完整性和成本。
成熟 AI 项目通常不会所有请求都用同一个最强模型。可以用规则或小模型处理分类、改写、路由和低风险任务,用强模型处理复杂推理和高价值生成,用 RAG 和工具调用补足事实与实时数据,用人工审核覆盖高风险结果。分层策略能在质量、成本和延迟之间取得更稳的平衡。
模型能力、价格和服务稳定性都会变化,因此项目架构应避免和单一供应商深度耦合。可以封装统一调用层,标准化消息格式、工具协议、重试、超时、日志、指标和评测流程。这样在模型升级、降级、切换或多供应商容灾时,业务层不需要大规模改造。
有参考价值,但只能作为初筛。最终要看业务评测,因为真实任务中的上下文、格式、知识库、成本和延迟约束往往和榜单测试不同。
低风险、结构清晰、对推理要求不高的任务适合小模型,例如分类、路由、简单改写、摘要预处理和格式转换。前提是用评测证明质量满足要求。
可以减少无效上下文、使用缓存、压缩提示词、按任务路由模型、限制输出长度、减少失败重试,并按业务结果核算成本,而不是只看单次调用价格。
因为模型价格、能力、限流和稳定性都会变化。统一抽象层能让业务复用日志、重试、监控、工具调用和评测逻辑,降低未来切换或多模型并行的成本。