01
60 秒回答模板
面试中可以先给分类框架,再讲训练目标,最后落到任务取舍。预训练模型不是只按名字记忆,而是看三件事:第一,架构决定模型能看到什么上下文,encoder 通常双向看输入,decoder 通常自回归生成,encoder-decoder 则先理解输入再生成输出;第二,训练目标决定模型学到的能力,MLM 学语义理解,causal LM 学连续生成,denoising seq2seq 学文本重建和转换,contrastive learning 学表示空间对齐;第三,应用场景决定选择,分类、NER、阅读理解偏 encoder,开放式生成、代码、对话偏 decoder,翻译、摘要、改写偏 encoder-decoder,图文检索、语义召回和跨模态搜索偏对比学习或多模态模型。回答时还要补充取舍:理解模型稳定但生成能力弱,生成模型通用但容易幻觉,seq2seq 适合可控生成但推理成本较高,对比学习召回快但需要负样本和评测体系。
考点 架构决定信息流
难度 真实面经题
回答目标 让面试官看到候选人不是背模型名,而是能从架构、训练目标、任务适配、工程取舍和验证指标系统化理解预训练模型家族。
02
深入解析
01 按架构分类
encoder-only 代表是 BERT、RoBERTa,特点是双向编码输入,输出 token 或句向量表示,适合理解类任务。decoder-only 代表是 GPT 系列、LLaMA,特点是从左到右预测下一个 token,适合生成、对话、代码和复杂推理。encoder-decoder 代表是 T5、BART,先编码源文本再解码目标文本,适合翻译、摘要、问答生成、改写等输入输出映射任务。多模态或对比学习模型如 CLIP、ALIGN,会把文本、图片等映射到同一表示空间,更适合跨模态检索和匹配。
02 按训练目标理解差异
MLM 会遮住部分 token 让模型恢复,优势是双向语义理解,适合分类、抽取、匹配,但不天然适合长文本自由生成。causal LM 让模型预测下一个 token,和生成式任务一致,因此扩展到对话、创作、代码更自然,但事实性和可控性需要额外机制约束。denoising seq2seq 会对输入加噪再恢复目标序列,训练模型从不完整或扰动输入生成完整输出,适合摘要、翻译、纠错。contrastive learning 通过拉近正样本、推远负样本学习相似度空间,适合检索、召回、聚类、图文匹配。
03 按任务做选型
分类、情感分析、意图识别、命名实体识别、抽取式阅读理解,通常优先考虑 encoder-only,因为它对输入整体语义建模强、延迟和成本可控。开放式问答、聊天机器人、文案生成、代码生成,通常使用 decoder-only,因为输出空间开放,需要逐步生成。机器翻译、标题生成、摘要、改写、结构化生成,可以选择 encoder-decoder 或大语言模型,取决于是否更看重可控性、成本和领域适配。语义搜索、推荐召回、图文检索则更依赖 embedding 和对比学习模型。
04 工程取舍与失败模式
encoder 模型通常更小、更稳、更容易评测,但能力边界集中在理解和打分;decoder 模型能力更通用,但更贵、更慢,并且可能出现幻觉、格式漂移和安全问题;encoder-decoder 在有明确输入输出任务时效果好,但架构和推理链路相对复杂;对比学习模型适合大规模召回,但对训练数据分布、负样本质量和相似度阈值敏感。验证时不能只看预训练模型名,而要看下游指标,如分类 F1、抽取 EM/F1、生成 ROUGE/BLEU/人工评分、检索 Recall@K、MRR、多模态匹配准确率,以及线上延迟和成本。
03
易错点
- 只罗列 BERT、GPT、T5 的名字,不解释架构和训练目标。
- 把预训练模型简单等同于大语言模型,忽略 encoder 和对比学习模型。
- 认为模型越大越适合所有任务,没有讨论成本、延迟和可控性。
- 把 MLM 和 causal LM 混为一谈,无法解释为什么一个偏理解、一个偏生成。
- 只谈离线效果,不谈线上验证指标和失败模式。
- 忽略多模态和检索场景,导致分类框架不完整。
04
面试官追问
为什么 BERT 不适合直接做长文本自由生成?
BERT 的训练目标是 MLM,它学习的是在双向上下文中恢复被遮住的 token,而不是按顺序连续生成文本。它可以用于打分、分类、抽取或作为 encoder,但如果直接让它像 GPT 一样生成,训练目标和推理方式不一致,生成连贯性和效率都会较差。
decoder-only 为什么能成为大模型主流架构?
因为 causal LM 的训练目标和生成式应用天然一致,数据可以来自大规模通用文本,扩展规律比较稳定,模型可以统一处理问答、对话、代码、推理等多类任务。但代价是推理成本高、事实性不稳定,需要通过指令微调、RLHF、RAG、工具调用和评测体系增强可控性。
什么时候选择 encoder-decoder,而不是直接用 GPT 类模型?
如果任务是稳定的输入到输出转换,比如翻译、摘要、改写、纠错,并且对输出格式、成本、延迟有较强要求,encoder-decoder 仍然有优势。若任务开放、需要复杂推理或多轮交互,decoder-only 大模型通常更灵活。
对比学习模型和生成模型有什么关系?
对比学习模型通常负责把内容编码成向量,用于召回、匹配和排序;生成模型负责基于上下文生成答案。实际系统常组合使用:先用 embedding 模型检索相关文档,再让大语言模型生成答案,这就是很多 RAG 系统的基础。