多模态大模型预训练通常分哪些阶段，ViT 视觉编码器如何参与训练？｜高频面试题解析

60 秒回答模板

多模态大模型预训练可以按从单模态到跨模态再到指令能力的顺序讲。第一阶段通常是视觉编码器预训练，ViT 把图片切成 patch，经过线性投影和 Transformer 得到视觉 token，可用分类、对比学习、masked image modeling 或其他自监督目标学习视觉表示。第二阶段是视觉到语言的接口对齐，把 ViT 输出通过 projector、Q-Former 或 cross-attention 模块映射到语言模型可用的 embedding 空间。第三阶段是图文对齐预训练，用图文对、caption、VQA 或图文匹配类数据，让模型学会图片和文本之间的对应关系。第四阶段是多模态指令微调，让模型按人类问题回答、描述、推理和拒答。第五阶段是任务或领域适配与评估，比如电商、OCR、医学或视频场景。ViT 的作用不是直接生成文本，而是提供稳定的视觉 token；训练时可以先冻结以稳定对齐，再按数据和算力决定是否解冻部分层。回答要避免说成只有一次端到端训练，重点是阶段目标、接口对齐和冻结/解冻取舍。

考点 阶段目标

难度 真实面经题

回答目标 讲清机制、训练与评估取舍

深入解析

ViT 先把图片变成 token

ViT 会把图片切成固定大小 patch，每个 patch 展平后投影到隐藏维度，再加位置编码进入 Transformer。输出可以是 patch token、全局 token 或多层特征，这些表示承载视觉内容，但还没有天然对齐到语言模型的 token 空间。

视觉预训练学习通用表征

视觉编码器可以通过分类、图文对比、masked image modeling 或自监督任务学习物体、纹理、布局和语义信息。预训练质量决定后续多模态模型能否看清图像细节，尤其影响小目标、文字、空间关系和细粒度属性。

接口对齐连接视觉和语言

ViT 输出的维度、token 数和语义空间通常不能直接喂给 LLM，需要 projector、query 模块或 cross-attention 进行维度映射、信息压缩和语义对齐。这个阶段经常先冻结大部分视觉或语言骨干，只训练连接层，以降低训练不稳定和灾难性遗忘。

图文预训练建立跨模态对应

对齐接口之后，要用图文对、描述、问答、匹配和检索数据学习视觉内容与语言表达的对应关系。常见目标可以包括对比学习、匹配判断、生成式语言建模或区域/文字相关任务，具体组合取决于模型架构和数据来源。

指令微调提升可用回答

预训练让模型知道图文如何对应，指令微调让模型学会按用户意图回答。它会覆盖描述、问答、推理、拒答、格式约束和多轮对话等能力。没有这一步，模型可能有视觉表征，但回答风格和任务遵循能力不足。

冻结和解冻是工程取舍

ViT 可以长期冻结以节省算力并保持稳定，也可以在后期解冻部分层适配高分辨率、OCR、领域图像或视频任务。解冻能提升领域能力，但需要更谨慎的学习率、数据质量和评估，避免破坏已有视觉表征。

易错点

把多模态预训练说成一次端到端训练，没有拆分视觉预训练、接口对齐和图文训练。
认为 ViT 直接生成文本，忽略它只是视觉编码器。
只讲模型结构，不讲训练目标和数据类型。
忽略 projector、Q-Former 或 cross-attention 等接口层的对齐作用。
把冻结当成固定规则，没有说明稳定性、算力、领域适配之间的取舍。
过度声称某个具体模型的内部 recipe，而没有依据题目要求保持高层回答。

面试官追问

ViT 的 patch token 为什么不能直接当文本 token 使用？

它们来自视觉编码空间，维度、分布和语义都和 LLM 的文本 embedding 不一致，需要连接层或对齐训练把视觉表示变成语言模型可消费的条件。

为什么很多方案先冻结视觉编码器或 LLM？

冻结可以减少训练参数、降低不稳定性，先让连接层学会对齐。后续如果领域数据足够，再考虑解冻部分层提升细粒度能力。

图文对比学习和生成式训练分别解决什么？

对比学习更强调全局图文匹配和检索对齐，生成式训练更强调根据视觉条件产生语言。多模态模型常按任务需要组合这些信号。

如果模型 OCR 能力差，应该优先检查什么？

先检查输入分辨率、ViT patch 粒度、文字相关预训练数据、是否有 OCR/版面任务、视觉 token 是否被过度压缩，以及指令数据是否覆盖文字问答。