60 秒回答模板

模态对齐的目标是让图像、文本、音频等不同模态的表示在语义上可比较、可融合。常见方法有 CLIP 式对比学习,把匹配图文拉近、不匹配拉远;用 projection layer 或 adapter 把视觉特征映射到语言模型 embedding 空间;用 cross-attention 做特征交互;用图文匹配、caption、VQA、指令微调等任务对齐语义;细粒度场景还会做 region-token、patch-token 或时间片对齐。选型要看是检索、生成、理解还是多轮对话,以及数据规模和推理成本。

考点 共享语义空间
难度 真实面经题
回答目标 讲清原理、实现和边界

深入解析

01

先定义对齐目标

多模态对齐不是简单拼接特征,而是让不同模态的表示在语义空间中可比较,并能服务检索、生成、问答或分类任务。

02

对比学习

CLIP 类方法用匹配样本作为正例、不匹配样本作为负例,把同语义图文表示拉近,把不同语义表示推远,适合检索和零样本迁移。

03

投影和适配层

视觉编码器输出通常不能直接进入 LLM,需要 projection、adapter、Q-Former 或 MLP 把视觉特征映射到语言模型可接收的表示空间。

04

跨注意力融合

Cross-attention 让一个模态的 token 查询另一个模态的特征,适合需要细粒度交互的理解、定位和生成任务。

05

任务监督对齐

图文匹配、caption、VQA、OCR、指令微调和偏好数据都可以提供对齐信号。实际系统常把多种损失和训练阶段组合使用。

易错点

  • 不要把多模态对齐说成简单 concat 特征。
  • 不要只讲 CLIP,对话式多模态模型还需要投影、融合和指令数据。
  • 不要忽略细粒度任务,检测、定位和 OCR 需要更细的对齐信号。

面试官追问

全局对齐和细粒度对齐有什么区别?

全局对齐让整图和整句语义接近,细粒度对齐关注区域、patch、token 或时间片之间的对应关系。

为什么视觉特征不能直接喂给 LLM?

视觉编码器输出维度、分布和语义粒度与语言 embedding 不同,需要投影或适配模块转换。

模态对齐如何评估?

可使用图文检索 recall、VQA 准确率、caption 指标、人工偏好、下游任务效果和跨模态错误案例。