标签题目
模型训练相关面试题
MMDiT 如何处理双流、单流输入并融合文本和图像模态?
MMDiT 的核心不是把文本和图像粗暴拼成一种特征,而是先保留两种模态各自的处理路径,再在注意力层里做联合交互。文本 token 和图像 latent patch token 通常有各自的投影、归一化、调制和前馈网络;进入注意力时分别生成 Q/K/V,再拼接到同一个注意力计算中,让文本与图像能够双向通信。部分架构还会在前面的双流阶段之后进入单流阶段,用统一 Transformer block 继续处理拼接后的 token,但仍通过位置、类型、掩码或前后处理保留模态身份。
图像特征处理用什么网络?
图像特征处理没有单一固定网络,核心是根据任务目标、数据规模、实时性和部署环境选择特征提取骨干网络、任务头和训练策略。传统通用选择是 CNN 骨干,如 ResNet、EfficientNet、MobileNet;如果数据规模较大、需要全局建模或与文本对齐,可以选择 ViT、Swin Transformer 或 CLIP 类多模态编码器;如果是检测、分割、OCR 等结构化任务,还需要 FPN、YOLO、Faster R-CNN、Mask R-CNN、OCR encoder-decoder 等任务头。
卷积神经网络原理?
卷积神经网络的核心思想,是利用局部感受野和权重共享,从图像或网格数据中逐层提取特征。卷积核在空间上滑动,对局部区域做加权求和,生成特征图;不同卷积核学习不同模式,浅层常捕捉边缘、纹理和颜色变化,深层逐渐组合成部件、形状和语义概念。CNN 并不是简单记住像素,而是学习从局部到整体的层次化表示。