多模态特征怎么融合？｜百度算法面经解析

60 秒回答模板

多模态融合一般先把文本、图像、音频、结构化特征分别编码成向量，再选择融合层级。早期融合是直接拼接原始或浅层特征，简单但对齐要求高；中期融合是在各自编码后拼接、门控或做 cross attention，表达能力更强；晚期融合是各模态模型分别打分再加权或 stacking，鲁棒且易工程化。还要处理尺度归一化、缺失模态、噪声模态、训练目标和线上延迟成本。

考点 先编码再融合

难度 算法岗真实面经题

回答目标 讲清方法、取舍和追问

深入解析

先做模态表示

不同模态的数据形态不同，文本可用词向量或 Transformer 编码，图像可用 CNN 或 ViT，结构化特征可用归一化和 Embedding。融合前要把它们转成可比较、可训练的向量表示。

选择融合层级

早期融合把特征较早拼接，简单但容易受尺度和对齐影响；中期融合在编码后通过拼接、MLP、门控或注意力交互；晚期融合让各模态独立输出，再做加权或集成。

解决对齐和交互

多模态难点在于不同模态是否描述同一对象、时间或语义。可以通过 ID 对齐、时间窗口、对比学习、cross attention、门控网络和共享语义空间来增强交互。

处理缺失和噪声

线上经常出现某些模态缺失或质量很差。模型需要缺失标记、默认向量、模态 dropout、置信度权重和降级策略，避免单个模态异常拖垮整体结果。

评估工程收益

融合不是模态越多越好。要比较单模态和多模态增益，观察分桶效果、长尾效果、延迟、特征抽取成本和可解释性，确认新增模态确实带来业务收益。

易错点

不要把多模态融合简单说成向量拼接，面试会追问对齐和交互。
不要忽略特征尺度，不同模态数值分布差异会影响训练。
不要默认所有模态线上都稳定可用，缺失和降级是工程重点。
不要只看离线整体提升，新增模态的成本和延迟可能不值得。

面试官追问

早期融合和晚期融合怎么取舍？

早期融合简单、能让模型学习细粒度交互，但对齐和尺度要求高；晚期融合鲁棒、易部署、可解释性较好，但模态间深层交互较弱。

多模态特征缺失怎么办？

可以用缺失标记、默认向量、模态 dropout、按置信度加权和单模态降级模型，让训练和线上都见过缺失情况。

如何证明多模态融合有效？

要做消融实验，对比单模态、双模态和全模态效果；再看分桶人群、长尾样本、线上 A/B、延迟和成本，避免只看整体离线均值。