垂类大模型主要解决哪些通用大模型难以满足的业务问题，产品上如何判断投入价值？｜美团产品面经解析

60 秒回答模板

可以先说明垂类大模型的定位：它不是为了追求参数更大，而是为了让模型更懂某个行业的知识、术语、流程和约束。通用大模型在开放问答和通用推理上强，但遇到医疗、金融、法律、本地生活、供应链、风控、客服运营等场景时，常见问题是专业术语理解浅、业务规则不稳定、输出不符合流程、无法保证一致性和合规。垂类大模型的价值在于用行业数据、业务反馈和专门评测集，把模型能力收敛到高价值任务上。产品判断投入价值时，要先看是否有高频高价值任务、是否有高质量数据和反馈闭环、错误是否可控、是否比 RAG、Prompt 或通用 API 更有收益。如果 RAG 加规则就能解决，不一定要训练垂类模型；只有在领域语言、决策模式、输出规范和复杂流程都需要深度适配时，垂类模型投入才更合理。

考点 垂类价值来自深度适配

难度 真实面经题

回答目标 让面试官看到候选人能用产品视角判断垂类大模型的业务适配度，而不是简单追随技术概念。

深入解析

解决通用模型的领域理解问题

通用大模型掌握广泛知识，但对行业黑话、细粒度概念、局部规则和企业内部语境可能理解不稳。例如本地生活业务里的履约、补贴、商户分层、风控策略、客服判责，都有大量特定定义。垂类模型通过领域语料、标注数据和业务反馈学习这些表达，减少答非所问和概念混淆。

解决流程和合规约束问题

很多业务不是答对知识就够，还要遵守流程、权限、审批、风控和监管要求。通用模型可能给出看似合理但不符合 SOP 的建议，或者在高风险场景中越权回答。垂类模型或垂类系统可以把行业规则、业务状态、合规边界和拒答策略固化到产品链路里，提升可控性和一致性。

与 RAG、Prompt、通用 API 的取舍

如果问题主要是知识更新和事实引用，优先 RAG；如果问题主要是输出格式、语气和简单流程，Prompt 或模板可能足够；如果任务是固定分类、抽取、排序，也可能用小模型更划算。垂类大模型适合通用 API 长期表现不稳定、领域推理复杂、错误成本高、数据可持续积累的场景。产品经理要避免把所有问题都包装成垂类模型问题。

投入价值和验证闭环

投入前要建立领域评测集，包括真实问题、标准答案、边界案例、错误分级和业务指标。验证时看准确率、召回率、一致性、幻觉率、合规通过率、人工接管率、任务完成率、延迟和单次成本。商业上要看节省人力、提升转化、降低风险损失或提高处理效率是否覆盖训练、推理、标注、运维和安全成本。没有数据闭环和评测闭环，垂类模型很难持续变好。

易错点

把垂类大模型等同于行业知识库，没有区分模型能力和外部知识检索。
只强调专业知识，不讨论流程、规则、合规和一致性。
没有比较 RAG、Prompt、规则、小模型和通用 API 的替代成本。
忽略数据闭环和评测集，导致无法证明模型真的更好。
只看准确率，不看延迟、推理成本、上线风险和 ROI。
把演示效果当成产品价值，没有落到真实业务指标。

面试官追问

垂类大模型和通用大模型最大的区别是什么？

通用大模型追求广泛能力，垂类大模型追求特定行业和任务上的准确、稳定、合规和可控。它通常会结合领域数据、业务规则、专门评测集和产品闭环，而不是单纯换一个模型名称。

什么时候不应该做垂类大模型？

如果问题主要是知识缺失，可以先做 RAG；如果只是格式不稳定，可以优化 Prompt；如果任务简单固定，可以用规则或小模型；如果没有高质量数据、没有评测集、没有明确 ROI，也不应该贸然投入垂类模型。

如何证明垂类模型比通用 API 更有价值？

要在同一批真实业务样本上做对照评测，比较准确率、任务完成率、一致性、幻觉率、合规风险、延迟和成本。最终还要看业务指标，比如客服解决率、审核效率、转化率、人工节省、风险损失下降，而不是只看主观体验。

垂类大模型上线有哪些风险？

主要风险包括训练数据偏差、过期规则、幻觉导致错误决策、合规越界、成本和延迟不可控、线上反馈污染模型。产品上需要灰度发布、人工兜底、高风险问题拒答、日志审计、版本回滚和持续评测。