常见预训练模型可以如何分类？它们在架构、训练目标和适用任务上有什么差别？｜华为算法面经解析

60 秒回答模板

面试中可以先给分类框架，再讲训练目标，最后落到任务取舍。预训练模型不是只按名字记忆，而是看三件事：第一，架构决定模型能看到什么上下文，encoder 通常双向看输入，decoder 通常自回归生成，encoder-decoder 则先理解输入再生成输出；第二，训练目标决定模型学到的能力，MLM 学语义理解，causal LM 学连续生成，denoising seq2seq 学文本重建和转换，contrastive learning 学表示空间对齐；第三，应用场景决定选择，分类、NER、阅读理解偏 encoder，开放式生成、代码、对话偏 decoder，翻译、摘要、改写偏 encoder-decoder，图文检索、语义召回和跨模态搜索偏对比学习或多模态模型。回答时还要补充取舍：理解模型稳定但生成能力弱，生成模型通用但容易幻觉，seq2seq 适合可控生成但推理成本较高，对比学习召回快但需要负样本和评测体系。

考点 架构决定信息流

难度 真实面经题

回答目标 让面试官看到候选人不是背模型名，而是能从架构、训练目标、任务适配、工程取舍和验证指标系统化理解预训练模型家族。

深入解析

按架构分类

encoder-only 代表是 BERT、RoBERTa，特点是双向编码输入，输出 token 或句向量表示，适合理解类任务。decoder-only 代表是 GPT 系列、LLaMA，特点是从左到右预测下一个 token，适合生成、对话、代码和复杂推理。encoder-decoder 代表是 T5、BART，先编码源文本再解码目标文本，适合翻译、摘要、问答生成、改写等输入输出映射任务。多模态或对比学习模型如 CLIP、ALIGN，会把文本、图片等映射到同一表示空间，更适合跨模态检索和匹配。

按训练目标理解差异

MLM 会遮住部分 token 让模型恢复，优势是双向语义理解，适合分类、抽取、匹配，但不天然适合长文本自由生成。causal LM 让模型预测下一个 token，和生成式任务一致，因此扩展到对话、创作、代码更自然，但事实性和可控性需要额外机制约束。denoising seq2seq 会对输入加噪再恢复目标序列，训练模型从不完整或扰动输入生成完整输出，适合摘要、翻译、纠错。contrastive learning 通过拉近正样本、推远负样本学习相似度空间，适合检索、召回、聚类、图文匹配。

按任务做选型

分类、情感分析、意图识别、命名实体识别、抽取式阅读理解，通常优先考虑 encoder-only，因为它对输入整体语义建模强、延迟和成本可控。开放式问答、聊天机器人、文案生成、代码生成，通常使用 decoder-only，因为输出空间开放，需要逐步生成。机器翻译、标题生成、摘要、改写、结构化生成，可以选择 encoder-decoder 或大语言模型，取决于是否更看重可控性、成本和领域适配。语义搜索、推荐召回、图文检索则更依赖 embedding 和对比学习模型。

工程取舍与失败模式

encoder 模型通常更小、更稳、更容易评测，但能力边界集中在理解和打分；decoder 模型能力更通用，但更贵、更慢，并且可能出现幻觉、格式漂移和安全问题；encoder-decoder 在有明确输入输出任务时效果好，但架构和推理链路相对复杂；对比学习模型适合大规模召回，但对训练数据分布、负样本质量和相似度阈值敏感。验证时不能只看预训练模型名，而要看下游指标，如分类 F1、抽取 EM/F1、生成 ROUGE/BLEU/人工评分、检索 Recall@K、MRR、多模态匹配准确率，以及线上延迟和成本。

易错点

只罗列 BERT、GPT、T5 的名字，不解释架构和训练目标。
把预训练模型简单等同于大语言模型，忽略 encoder 和对比学习模型。
认为模型越大越适合所有任务，没有讨论成本、延迟和可控性。
把 MLM 和 causal LM 混为一谈，无法解释为什么一个偏理解、一个偏生成。
只谈离线效果，不谈线上验证指标和失败模式。
忽略多模态和检索场景，导致分类框架不完整。

面试官追问

为什么 BERT 不适合直接做长文本自由生成？

BERT 的训练目标是 MLM，它学习的是在双向上下文中恢复被遮住的 token，而不是按顺序连续生成文本。它可以用于打分、分类、抽取或作为 encoder，但如果直接让它像 GPT 一样生成，训练目标和推理方式不一致，生成连贯性和效率都会较差。

decoder-only 为什么能成为大模型主流架构？

因为 causal LM 的训练目标和生成式应用天然一致，数据可以来自大规模通用文本，扩展规律比较稳定，模型可以统一处理问答、对话、代码、推理等多类任务。但代价是推理成本高、事实性不稳定，需要通过指令微调、RLHF、RAG、工具调用和评测体系增强可控性。

什么时候选择 encoder-decoder，而不是直接用 GPT 类模型？

如果任务是稳定的输入到输出转换，比如翻译、摘要、改写、纠错，并且对输出格式、成本、延迟有较强要求，encoder-decoder 仍然有优势。若任务开放、需要复杂推理或多轮交互，decoder-only 大模型通常更灵活。

对比学习模型和生成模型有什么关系？

对比学习模型通常负责把内容编码成向量，用于召回、匹配和排序；生成模型负责基于上下文生成答案。实际系统常组合使用：先用 embedding 模型检索相关文档，再让大语言模型生成答案，这就是很多 RAG 系统的基础。