真实面经题目 · 原创解析
什么业务适合用大模型,什么业务更适合用小模型,如何按复杂度、成本、延迟和风险做选型?
大模型和小模型选型不是按技术先进程度决定,而是按任务复杂度、开放性、质量收益、成本延迟和风险等级综合判断。复杂生成、多轮推理、开放问答适合大模型;标准分类、固定规则、高频低价值、低延迟任务更适合小模型、规则或传统算法。
真实面经题目 · 原创解析
大模型和小模型选型不是按技术先进程度决定,而是按任务复杂度、开放性、质量收益、成本延迟和风险等级综合判断。复杂生成、多轮推理、开放问答适合大模型;标准分类、固定规则、高频低价值、低延迟任务更适合小模型、规则或传统算法。
我会用任务复杂度、收益成本、风险等级、系统分层四个维度判断。首先看任务是否开放和复杂。如果任务需要理解自然语言、多轮上下文、生成方案、跨知识推理,比如客服复杂问答、经营分析、商家运营建议、内容生成,大模型更合适。如果任务是固定分类、关键词匹配、简单审核、排序打分、意图识别,小模型或规则往往更稳定、更便宜。第二看质量收益能否覆盖成本和延迟。大模型调用成本高、响应慢、并发资源要求高,不适合所有高频链路;每次搜索召回、广告实时竞价、风控毫秒级判断,通常不会直接依赖大模型主链路。第三看风险等级,涉及医疗、金融、法律、履约承诺、价格赔付等高风险场景不能让大模型自由生成结论,需要规则约束、知识库引用、工具校验、人工审核和安全策略。第四是分层架构:规则处理确定性问题,小模型处理标准识别和分类,RAG 解决知识补充,大模型处理开放推理和生成,人工兜底处理高风险和低置信问题。线上可以用路由系统根据问题难度、置信度、用户价值和 SLA 动态选择模型,并通过灰度、A/B、成本监控和 badcase 评审持续迭代。
大模型适合开放性强、输入不标准、需要多轮理解和生成的任务,例如复杂客服、内容创作、经营诊断、知识问答、方案生成和代码辅助。小模型适合目标明确、标签稳定、输入结构化的任务,例如分类、意图识别、相似度匹配、风险打分、排序特征和简单抽取。规则适合确定性强、可枚举、合规要求明确的逻辑。
大模型能提升复杂任务质量,但代价是 token 费用、GPU 资源、响应延迟、工程接入和评测治理成本。对于高频低价值请求,哪怕大模型准确率更高,也可能不经济。产品经理要把效果提升转成业务指标,如解决率提升、人工成本下降、转化提升、投诉下降,再和单位调用成本、延迟、并发压力比较。
涉及钱、合规、履约承诺、用户权益、法律医疗等场景,不能只依赖大模型生成。应该用规则定义红线,用 RAG 提供可追溯知识,用工具查询实时事实,用置信度控制转人工,用审核机制处理敏感输出。大模型可以做辅助判断和解释生成,但最终动作要被业务系统约束。
成熟系统不是单一模型,而是模型路由。简单问题走规则或小模型,复杂问题走大模型,需要实时事实的走 RAG 和工具,高风险或低置信问题转人工。上线时通过灰度、A/B 测试和监控观察准确率、解决率、延迟、成本、投诉率和安全事件,再逐步扩大流量。
可以分层。高频标准 FAQ 用知识库检索或小模型意图识别,复杂多轮问题用大模型总结和生成,涉及退款、赔付、承诺等高风险动作必须查业务系统并受规则约束,低置信或用户情绪激烈时转人工。
看业务指标是否覆盖成本。比如解决率提升多少、转人工率下降多少、平均处理时长降低多少、用户满意度是否提升、投诉是否下降,再结合单次调用成本、延迟和安全事件判断 ROI。
短期不会。小模型在特定任务上有低成本、低延迟、易部署、易监控的优势。大模型更像复杂任务引擎,小模型仍适合高频、确定、标准化的业务节点。
可以根据问题类型、历史命中率、置信度、用户价值、SLA、风险等级来路由。简单请求走规则或小模型,复杂请求走大模型,事实性请求走 RAG,关键动作走工具校验,高风险请求转人工或审核。