真实面经题目 · 原创解析
多模态特征怎么融合?
多模态特征融合要解决不同模态的表示、对齐、尺度、缺失和交互问题。面试回答可按早期融合、中期融合、晚期融合和注意力/跨模态交互展开,再补充训练目标、缺失模态和线上成本。
真实面经题目 · 原创解析
多模态特征融合要解决不同模态的表示、对齐、尺度、缺失和交互问题。面试回答可按早期融合、中期融合、晚期融合和注意力/跨模态交互展开,再补充训练目标、缺失模态和线上成本。
多模态融合一般先把文本、图像、音频、结构化特征分别编码成向量,再选择融合层级。早期融合是直接拼接原始或浅层特征,简单但对齐要求高;中期融合是在各自编码后拼接、门控或做 cross attention,表达能力更强;晚期融合是各模态模型分别打分再加权或 stacking,鲁棒且易工程化。还要处理尺度归一化、缺失模态、噪声模态、训练目标和线上延迟成本。
不同模态的数据形态不同,文本可用词向量或 Transformer 编码,图像可用 CNN 或 ViT,结构化特征可用归一化和 Embedding。融合前要把它们转成可比较、可训练的向量表示。
早期融合把特征较早拼接,简单但容易受尺度和对齐影响;中期融合在编码后通过拼接、MLP、门控或注意力交互;晚期融合让各模态独立输出,再做加权或集成。
多模态难点在于不同模态是否描述同一对象、时间或语义。可以通过 ID 对齐、时间窗口、对比学习、cross attention、门控网络和共享语义空间来增强交互。
线上经常出现某些模态缺失或质量很差。模型需要缺失标记、默认向量、模态 dropout、置信度权重和降级策略,避免单个模态异常拖垮整体结果。
融合不是模态越多越好。要比较单模态和多模态增益,观察分桶效果、长尾效果、延迟、特征抽取成本和可解释性,确认新增模态确实带来业务收益。
早期融合简单、能让模型学习细粒度交互,但对齐和尺度要求高;晚期融合鲁棒、易部署、可解释性较好,但模态间深层交互较弱。
可以用缺失标记、默认向量、模态 dropout、按置信度加权和单模态降级模型,让训练和线上都见过缺失情况。
要做消融实验,对比单模态、双模态和全模态效果;再看分桶人群、长尾样本、线上 A/B、延迟和成本,避免只看整体离线均值。