真实面经题目 · 原创解析
加入雷达点云作为第三模态时,3D 多模态感知如何调整表征和对齐策略?
这道题考察 3D 多模态感知的工程化对齐能力。回答要先比较点、体素、BEV、range view 和 query 表征,再说明加入雷达点云后必须处理坐标系、时间同步、运动补偿、稀疏噪声、置信度建模和跨模态融合策略。
真实面经题目 · 原创解析
这道题考察 3D 多模态感知的工程化对齐能力。回答要先比较点、体素、BEV、range view 和 query 表征,再说明加入雷达点云后必须处理坐标系、时间同步、运动补偿、稀疏噪声、置信度建模和跨模态融合策略。
加入雷达点云后,我会先重新审视统一表征。原始点表征保留几何细节但融合成本高,voxel/BEV 更适合和图像特征、其他 3D 特征在空间上对齐,query/token 表征适合用 cross-attention 做中后期融合。第三模态带来的第一类问题是几何和时间对齐:外参、坐标系、时间戳、运动补偿和采样频率都要校准。第二类问题是数据形态:雷达点云可能更稀疏、有噪声或带速度/强度等属性,需要置信度和不确定性建模。融合上可以先把各模态投到统一 BEV/3D 坐标,再做 attention 或门控融合,并设计缺失模态训练、跨模态一致性损失和分场景评估,保证第三模态在夜间、遮挡、远距等场景真正带来增益。
不同 3D 表征会直接影响融合方式。raw point 保留细粒度几何但不规则,voxel 便于 3D 卷积但计算量较大,BEV 把空间压到鸟瞰平面便于检测和多传感器对齐,range view 贴近某些传感器扫描结构,object query 或 token 表征适合 transformer 融合。加入第三模态时,通常需要选择一个统一融合空间,而不是把三个模态简单拼接。
雷达点云要和已有模态对齐,首先要处理外参、内参、坐标系和尺度。点云可以投影到图像平面,也可以把图像特征反投影到 3D/BEV 空间,关键是所有模态在同一个自车坐标或世界坐标下表达。外参误差会造成空间错位,所以训练和评估都要关注标定误差的鲁棒性。
第三模态往往有不同采样频率和时间戳,如果直接融合,会把不同时间的物体位置对到一起。需要按时间戳做插值、同步或最近帧匹配,并结合自车运动和目标运动做补偿。对于动态目标,时间误差可能比空间分辨率误差更致命。
雷达点云可能稀疏、噪声较高,并带有强度、速度等额外属性。模型可以对点或 voxel 建置信度,过滤低质量点,使用时间累积增强稠密度,或在 fusion gate 中让模型学习不同场景下信任哪个模态。不能默认第三模态一定提升,噪声处理不好反而会拖累主模态。
早期融合适合标定非常准、模态空间天然对齐的情况;中期融合常见做法是各模态先编码,再投到 BEV/3D token 空间,通过 cross-attention、deformable attention 或门控融合交互;后期融合则更稳健但信息交互弱。第三模态加入后,最好显式建模模态置信度和缺失模态情况。
训练上可以加入跨模态一致性、对比学习、辅助检测/分割任务和模态 dropout,让模型在某个模态缺失或质量差时仍稳定。评估不能只看总体 mAP,要按夜间、雨雾、遮挡、远距、小目标、动态目标和标定扰动切片,看雷达点云作为第三模态是否在目标场景带来增益。
BEV 把不同传感器的信息投到统一地面坐标空间,便于表达物体位置、尺寸和运动关系,也便于和检测、跟踪等 3D 任务衔接。
可以做点级过滤、时间累积、置信度预测、模态 gate、模态 dropout 和不确定性建模,让模型在低质量模态下少依赖它。
早期融合要求标定和同步非常可靠,信息交互充分但对噪声敏感;中期融合先独立编码再对齐交互,更容易处理模态质量差异,是第三模态加入时更稳健的选择。
做消融实验和场景切片,比较无第三模态、直接融合、置信融合等版本,在遮挡、夜间、远距、动态目标和恶劣条件下看增益。