60 秒回答模板

多模态融合一般先把文本、图像、音频、结构化特征分别编码成向量,再选择融合层级。早期融合是直接拼接原始或浅层特征,简单但对齐要求高;中期融合是在各自编码后拼接、门控或做 cross attention,表达能力更强;晚期融合是各模态模型分别打分再加权或 stacking,鲁棒且易工程化。还要处理尺度归一化、缺失模态、噪声模态、训练目标和线上延迟成本。

考点 先编码再融合
难度 算法岗真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

先做模态表示

不同模态的数据形态不同,文本可用词向量或 Transformer 编码,图像可用 CNN 或 ViT,结构化特征可用归一化和 Embedding。融合前要把它们转成可比较、可训练的向量表示。

02

选择融合层级

早期融合把特征较早拼接,简单但容易受尺度和对齐影响;中期融合在编码后通过拼接、MLP、门控或注意力交互;晚期融合让各模态独立输出,再做加权或集成。

03

解决对齐和交互

多模态难点在于不同模态是否描述同一对象、时间或语义。可以通过 ID 对齐、时间窗口、对比学习、cross attention、门控网络和共享语义空间来增强交互。

04

处理缺失和噪声

线上经常出现某些模态缺失或质量很差。模型需要缺失标记、默认向量、模态 dropout、置信度权重和降级策略,避免单个模态异常拖垮整体结果。

05

评估工程收益

融合不是模态越多越好。要比较单模态和多模态增益,观察分桶效果、长尾效果、延迟、特征抽取成本和可解释性,确认新增模态确实带来业务收益。

易错点

  • 不要把多模态融合简单说成向量拼接,面试会追问对齐和交互。
  • 不要忽略特征尺度,不同模态数值分布差异会影响训练。
  • 不要默认所有模态线上都稳定可用,缺失和降级是工程重点。
  • 不要只看离线整体提升,新增模态的成本和延迟可能不值得。

面试官追问

早期融合和晚期融合怎么取舍?

早期融合简单、能让模型学习细粒度交互,但对齐和尺度要求高;晚期融合鲁棒、易部署、可解释性较好,但模态间深层交互较弱。

多模态特征缺失怎么办?

可以用缺失标记、默认向量、模态 dropout、按置信度加权和单模态降级模型,让训练和线上都见过缺失情况。

如何证明多模态融合有效?

要做消融实验,对比单模态、双模态和全模态效果;再看分桶人群、长尾样本、线上 A/B、延迟和成本,避免只看整体离线均值。