真实面经题目 · 原创解析

做 AI 项目时如何选择和使用大模型?

做 AI 项目选择和使用大模型,不能只看榜单或单次体验,而要从业务目标、任务类型、质量要求、成本预算、延迟约束、上下文长度、工具能力、数据安全、供应商稳定性和可观测性综合评估。正确姿势是小范围评测、多模型分层、持续监控和可替换架构。

出现于:字节跳动 · 技术客户成功

60 秒回答模板

可以按选型流程回答。第一,定义业务任务和成功指标,例如问答准确率、代码通过率、转人工率、审核通过率、响应时间和单次成本;第二,整理真实样本和边界样本,构建离线评测集,不只看公开 benchmark;第三,比较候选模型的能力、上下文长度、结构化输出、函数调用、多模态、稳定性、价格、限流和数据合规;第四,按场景分层使用模型,简单任务用小模型或规则,高价值复杂任务用强模型,必要时加入检索、工具调用和人工审核;第五,线上持续监控质量、成本、延迟和安全,并保持供应商抽象层,方便模型升级、回滚和切换。

考点 指标先行
难度 真实面经高频题
回答目标 讲清机制、边界和追问

深入解析

01

从业务目标出发

模型选型不能先问哪个模型最强,而要先问业务要解决什么问题。客服问答、合同审核、代码生成、搜索改写、内容创作、数据分析对准确率、延迟、成本和可解释性的要求完全不同。明确成功指标后,才能判断模型能力是否真的转化为业务收益。

02

建立真实评测

公开榜单只能提供参考,不能替代业务评测。项目应收集真实用户请求、历史失败样本、长尾边界、敏感场景和高频任务,设计自动和人工结合的评分方式。评测内容要覆盖正确性、指令遵循、格式稳定、幻觉、拒答、工具调用和多轮一致性。

03

比较关键能力

候选模型需要从多个维度比较:推理能力、专业知识、长上下文处理、结构化输出、函数调用、多模态、语言支持、流式响应、并发限额、稳定性、价格、缓存能力和生态工具。不同项目权重不同,例如实时聊天重视首 token 延迟,后台报告更重视完整性和成本。

04

分层组合使用

成熟 AI 项目通常不会所有请求都用同一个最强模型。可以用规则或小模型处理分类、改写、路由和低风险任务,用强模型处理复杂推理和高价值生成,用 RAG 和工具调用补足事实与实时数据,用人工审核覆盖高风险结果。分层策略能在质量、成本和延迟之间取得更稳的平衡。

05

保持可替换架构

模型能力、价格和服务稳定性都会变化,因此项目架构应避免和单一供应商深度耦合。可以封装统一调用层,标准化消息格式、工具协议、重试、超时、日志、指标和评测流程。这样在模型升级、降级、切换或多供应商容灾时,业务层不需要大规模改造。

易错点

  • 只看榜单排名或演示效果,没有用真实业务样本评测。
  • 所有任务都调用最强模型,导致成本和延迟失控,也缺少低风险场景的轻量方案。
  • 忽略数据安全、权限、审计和供应商稳定性,只比较生成质量。
  • 没有封装调用层和评测体系,模型升级或切换时只能靠人工感觉判断效果。

面试官追问

公开模型榜单有没有参考价值?

有参考价值,但只能作为初筛。最终要看业务评测,因为真实任务中的上下文、格式、知识库、成本和延迟约束往往和榜单测试不同。

什么时候用小模型?

低风险、结构清晰、对推理要求不高的任务适合小模型,例如分类、路由、简单改写、摘要预处理和格式转换。前提是用评测证明质量满足要求。

如何控制模型成本?

可以减少无效上下文、使用缓存、压缩提示词、按任务路由模型、限制输出长度、减少失败重试,并按业务结果核算成本,而不是只看单次调用价格。

为什么要做供应商抽象层?

因为模型价格、能力、限流和稳定性都会变化。统一抽象层能让业务复用日志、重试、监控、工具调用和评测逻辑,降低未来切换或多模型并行的成本。