BEiT v3 相比 BEiT v2 的 embedding 设计有什么变化？｜字节跳动算法面经解析

60 秒回答模板

回答这题要先控制范围：BEiT v2 更偏视觉表征预训练，核心输入是图像 patch embedding，配合 masked image modeling 或视觉 token 预测学习图像表示；BEiT v3 则把 BEiT 思路扩展到统一多模态预训练，要同时处理图像、文本和图文联合输入。因此 embedding 设计的变化可以概括为三点。第一，输入模态从主要图像 patch 扩展到图像 patch embedding 和文本 token embedding，并需要区分不同模态。第二，位置和类型信息更重要，图像有二维空间位置，文本有一维序列位置，图文联合输入还要表达模态边界。第三，模型结构会为不同模态保留一定的专用路径或参数，同时共享高层表示，目标是让图像、文本和图文任务在一个预训练框架下迁移。面试里不要把它答成单纯维度变化，也不要声称所有实现细节都完全固定；抓住从视觉单模态 embedding 到统一多模态 embedding 的转变即可。

考点 从视觉到多模态

难度 真实面经题

回答目标 讲清机制、训练与评估取舍

深入解析

先说 BEiT v2 的位置

BEiT v2 主要面向视觉表征学习。输入通常是图像被切成 patch 后的 embedding，再结合位置编码进入视觉 Transformer，通过遮蔽图像建模或视觉 token 预测学习更好的图像表示。它的主场是图像单模态预训练。

BEiT v3 扩展到多模态

BEiT v3 的变化不是只改 patch 大小，而是把图像、文本和图文联合任务放入统一预训练框架。输入侧需要同时容纳 image patch embedding 和 text token embedding，让模型能处理纯图像、纯文本和图文组合。

embedding 要表达模态差异

图像 patch 和文本 token 的来源、粒度和位置信息不同。多模态输入通常需要模态类型、位置编码或专门的嵌入映射来区分这些 token，避免模型把图像 patch 和文本词片段当作完全同质的输入。

位置编码承担不同语义

图像位置表达二维空间关系，文本位置表达一维语序。图文联合输入还要处理图像 token 与文本 token 的拼接边界和跨模态关系。回答时可以强调 BEiT v3 的 embedding 设计要支持这些不同位置语义。

共享和专用路径并存

统一多模态模型通常既希望高层表示共享，便于跨模态迁移，又需要保留部分模态专用处理，避免图像和文本分布差异互相干扰。BEiT v3 相比 v2 的重点就在于这种统一框架下的模态兼容。

面试回答保持高层准确

这类题容易被问到版本细节，但公开答案应保持稳定：v2 主要是视觉侧 patch/token 表征，v3 扩展到图像和文本的统一 embedding 与预训练。若面试官追问具体结构，再补充多路/共享 Transformer、模态专用参数和预训练目标。

易错点

把 BEiT v3 说成只是 BEiT v2 的更大模型，没有说明多模态输入变化。
只讲 masked image modeling，偏离 embedding 设计差异。
认为图像 patch 和文本 token 可以完全不加区分地混在一起。
只说维度变大或 token 变多，没有解释模态类型和位置编码。
把 BEiT v3 和 CLIP 混同为双塔对比模型。
过度给出不确定的论文内部细节，忽略面试需要的稳定高层差异。

面试官追问

BEiT v3 的 embedding 变化能不能理解成多了文本 embedding？

可以作为第一层理解，但不够完整。还要说明模态类型、位置语义、联合输入边界和共享/专用表示之间的设计取舍。

为什么图像和文本不能完全共用同一种输入 embedding？

图像 patch 和文本 token 的统计分布、位置信息和语义粒度不同。完全不区分会增加学习难度，通常需要不同的输入映射或模态提示。

BEiT v3 相比 v2 对下游任务有什么意义？

它更适合统一支持图像分类、文本任务、图文检索、VQA 等任务，因为预训练阶段已经把多种输入形式放到同一框架里学习。

这题为什么不能只答 masked image modeling？

因为题目问的是 v3 相比 v2 的 embedding 设计变化，重点在输入模态和统一建模的扩展，而不是只复述 v2 的视觉预训练目标。