真实面经题目 · 原创解析
多模态大模型预训练通常分哪些阶段,ViT 视觉编码器如何参与训练?
这题考多模态大模型预训练的阶段拆解,以及 ViT 视觉编码器如何把图片变成可与语言模型对齐的视觉 token。
真实面经题目 · 原创解析
这题考多模态大模型预训练的阶段拆解,以及 ViT 视觉编码器如何把图片变成可与语言模型对齐的视觉 token。
多模态大模型预训练可以按从单模态到跨模态再到指令能力的顺序讲。第一阶段通常是视觉编码器预训练,ViT 把图片切成 patch,经过线性投影和 Transformer 得到视觉 token,可用分类、对比学习、masked image modeling 或其他自监督目标学习视觉表示。第二阶段是视觉到语言的接口对齐,把 ViT 输出通过 projector、Q-Former 或 cross-attention 模块映射到语言模型可用的 embedding 空间。第三阶段是图文对齐预训练,用图文对、caption、VQA 或图文匹配类数据,让模型学会图片和文本之间的对应关系。第四阶段是多模态指令微调,让模型按人类问题回答、描述、推理和拒答。第五阶段是任务或领域适配与评估,比如电商、OCR、医学或视频场景。ViT 的作用不是直接生成文本,而是提供稳定的视觉 token;训练时可以先冻结以稳定对齐,再按数据和算力决定是否解冻部分层。回答要避免说成只有一次端到端训练,重点是阶段目标、接口对齐和冻结/解冻取舍。
ViT 会把图片切成固定大小 patch,每个 patch 展平后投影到隐藏维度,再加位置编码进入 Transformer。输出可以是 patch token、全局 token 或多层特征,这些表示承载视觉内容,但还没有天然对齐到语言模型的 token 空间。
视觉编码器可以通过分类、图文对比、masked image modeling 或自监督任务学习物体、纹理、布局和语义信息。预训练质量决定后续多模态模型能否看清图像细节,尤其影响小目标、文字、空间关系和细粒度属性。
ViT 输出的维度、token 数和语义空间通常不能直接喂给 LLM,需要 projector、query 模块或 cross-attention 进行维度映射、信息压缩和语义对齐。这个阶段经常先冻结大部分视觉或语言骨干,只训练连接层,以降低训练不稳定和灾难性遗忘。
对齐接口之后,要用图文对、描述、问答、匹配和检索数据学习视觉内容与语言表达的对应关系。常见目标可以包括对比学习、匹配判断、生成式语言建模或区域/文字相关任务,具体组合取决于模型架构和数据来源。
预训练让模型知道图文如何对应,指令微调让模型学会按用户意图回答。它会覆盖描述、问答、推理、拒答、格式约束和多轮对话等能力。没有这一步,模型可能有视觉表征,但回答风格和任务遵循能力不足。
ViT 可以长期冻结以节省算力并保持稳定,也可以在后期解冻部分层适配高分辨率、OCR、领域图像或视频任务。解冻能提升领域能力,但需要更谨慎的学习率、数据质量和评估,避免破坏已有视觉表征。
它们来自视觉编码空间,维度、分布和语义都和 LLM 的文本 embedding 不一致,需要连接层或对齐训练把视觉表示变成语言模型可消费的条件。
冻结可以减少训练参数、降低不稳定性,先让连接层学会对齐。后续如果领域数据足够,再考虑解冻部分层提升细粒度能力。
对比学习更强调全局图文匹配和检索对齐,生成式训练更强调根据视觉条件产生语言。多模态模型常按任务需要组合这些信号。
先检查输入分辨率、ViT patch 粒度、文字相关预训练数据、是否有 OCR/版面任务、视觉 token 是否被过度压缩,以及指令数据是否覆盖文字问答。