什么业务适合用大模型，什么业务更适合用小模型，如何按复杂度、成本、延迟和风险做选型？｜美团产品面经解析

60 秒回答模板

我会用任务复杂度、收益成本、风险等级、系统分层四个维度判断。首先看任务是否开放和复杂。如果任务需要理解自然语言、多轮上下文、生成方案、跨知识推理，比如客服复杂问答、经营分析、商家运营建议、内容生成，大模型更合适。如果任务是固定分类、关键词匹配、简单审核、排序打分、意图识别，小模型或规则往往更稳定、更便宜。第二看质量收益能否覆盖成本和延迟。大模型调用成本高、响应慢、并发资源要求高，不适合所有高频链路；每次搜索召回、广告实时竞价、风控毫秒级判断，通常不会直接依赖大模型主链路。第三看风险等级，涉及医疗、金融、法律、履约承诺、价格赔付等高风险场景不能让大模型自由生成结论，需要规则约束、知识库引用、工具校验、人工审核和安全策略。第四是分层架构：规则处理确定性问题，小模型处理标准识别和分类，RAG 解决知识补充，大模型处理开放推理和生成，人工兜底处理高风险和低置信问题。线上可以用路由系统根据问题难度、置信度、用户价值和 SLA 动态选择模型，并通过灰度、A/B、成本监控和 badcase 评审持续迭代。

考点 大模型适合复杂开放任务

难度 真实面经题

回答目标 让面试官看到你能从业务复杂度、ROI、系统架构和风险治理角度做模型选型，而不是停留在技术名词比较。

深入解析

先按任务复杂度判断

大模型适合开放性强、输入不标准、需要多轮理解和生成的任务，例如复杂客服、内容创作、经营诊断、知识问答、方案生成和代码辅助。小模型适合目标明确、标签稳定、输入结构化的任务，例如分类、意图识别、相似度匹配、风险打分、排序特征和简单抽取。规则适合确定性强、可枚举、合规要求明确的逻辑。

再看质量收益是否覆盖成本

大模型能提升复杂任务质量，但代价是 token 费用、GPU 资源、响应延迟、工程接入和评测治理成本。对于高频低价值请求，哪怕大模型准确率更高，也可能不经济。产品经理要把效果提升转成业务指标，如解决率提升、人工成本下降、转化提升、投诉下降，再和单位调用成本、延迟、并发压力比较。

高风险场景必须分层治理

涉及钱、合规、履约承诺、用户权益、法律医疗等场景，不能只依赖大模型生成。应该用规则定义红线，用 RAG 提供可追溯知识，用工具查询实时事实，用置信度控制转人工，用审核机制处理敏感输出。大模型可以做辅助判断和解释生成，但最终动作要被业务系统约束。

线上用路由和灰度动态选型

成熟系统不是单一模型，而是模型路由。简单问题走规则或小模型，复杂问题走大模型，需要实时事实的走 RAG 和工具，高风险或低置信问题转人工。上线时通过灰度、A/B 测试和监控观察准确率、解决率、延迟、成本、投诉率和安全事件，再逐步扩大流量。

易错点

简单认为大模型一定比小模型好，忽略任务复杂度和业务价值。
只从准确率选型，不看成本、延迟、并发和 SLA。
忽略高风险场景的规则约束、工具校验和人工兜底。
把所有任务都交给一个模型处理，缺少路由和分层架构。
没有设计线上灰度、A/B、成本监控和 badcase 评审。
不区分生成任务、分类任务和实时决策任务。

面试官追问

一个客服场景该用大模型还是小模型？

可以分层。高频标准 FAQ 用知识库检索或小模型意图识别，复杂多轮问题用大模型总结和生成，涉及退款、赔付、承诺等高风险动作必须查业务系统并受规则约束，低置信或用户情绪激烈时转人工。

如何证明使用大模型值得？

看业务指标是否覆盖成本。比如解决率提升多少、转人工率下降多少、平均处理时长降低多少、用户满意度是否提升、投诉是否下降，再结合单次调用成本、延迟和安全事件判断 ROI。

小模型会不会被大模型完全替代？

短期不会。小模型在特定任务上有低成本、低延迟、易部署、易监控的优势。大模型更像复杂任务引擎，小模型仍适合高频、确定、标准化的业务节点。

线上模型路由怎么做？

可以根据问题类型、历史命中率、置信度、用户价值、SLA、风险等级来路由。简单请求走规则或小模型，复杂请求走大模型，事实性请求走 RAG，关键动作走工具校验，高风险请求转人工或审核。