真实面经题目 · 原创解析
多模态模型中的模态对齐方法有哪些?
多模态对齐方法包括对比学习、投影到共享空间、跨注意力融合、指令微调、图文匹配损失和细粒度 token/patch 对齐。
真实面经题目 · 原创解析
多模态对齐方法包括对比学习、投影到共享空间、跨注意力融合、指令微调、图文匹配损失和细粒度 token/patch 对齐。
模态对齐的目标是让图像、文本、音频等不同模态的表示在语义上可比较、可融合。常见方法有 CLIP 式对比学习,把匹配图文拉近、不匹配拉远;用 projection layer 或 adapter 把视觉特征映射到语言模型 embedding 空间;用 cross-attention 做特征交互;用图文匹配、caption、VQA、指令微调等任务对齐语义;细粒度场景还会做 region-token、patch-token 或时间片对齐。选型要看是检索、生成、理解还是多轮对话,以及数据规模和推理成本。
多模态对齐不是简单拼接特征,而是让不同模态的表示在语义空间中可比较,并能服务检索、生成、问答或分类任务。
CLIP 类方法用匹配样本作为正例、不匹配样本作为负例,把同语义图文表示拉近,把不同语义表示推远,适合检索和零样本迁移。
视觉编码器输出通常不能直接进入 LLM,需要 projection、adapter、Q-Former 或 MLP 把视觉特征映射到语言模型可接收的表示空间。
Cross-attention 让一个模态的 token 查询另一个模态的特征,适合需要细粒度交互的理解、定位和生成任务。
图文匹配、caption、VQA、OCR、指令微调和偏好数据都可以提供对齐信号。实际系统常把多种损失和训练阶段组合使用。
全局对齐让整图和整句语义接近,细粒度对齐关注区域、patch、token 或时间片之间的对应关系。
视觉编码器输出维度、分布和语义粒度与语言 embedding 不同,需要投影或适配模块转换。
可使用图文检索 recall、VQA 准确率、caption 指标、人工偏好、下游任务效果和跨模态错误案例。