真实面经题目 · 原创解析

加入雷达点云作为第三模态时,3D 多模态感知如何调整表征和对齐策略?

这道题考察 3D 多模态感知的工程化对齐能力。回答要先比较点、体素、BEV、range view 和 query 表征,再说明加入雷达点云后必须处理坐标系、时间同步、运动补偿、稀疏噪声、置信度建模和跨模态融合策略。

出现于:小米 · 算法

60 秒回答模板

加入雷达点云后,我会先重新审视统一表征。原始点表征保留几何细节但融合成本高,voxel/BEV 更适合和图像特征、其他 3D 特征在空间上对齐,query/token 表征适合用 cross-attention 做中后期融合。第三模态带来的第一类问题是几何和时间对齐:外参、坐标系、时间戳、运动补偿和采样频率都要校准。第二类问题是数据形态:雷达点云可能更稀疏、有噪声或带速度/强度等属性,需要置信度和不确定性建模。融合上可以先把各模态投到统一 BEV/3D 坐标,再做 attention 或门控融合,并设计缺失模态训练、跨模态一致性损失和分场景评估,保证第三模态在夜间、遮挡、远距等场景真正带来增益。

考点 统一表征
难度 真实面经题
回答目标 讲清原理、实现和边界

深入解析

01

先比较 3D 表征

不同 3D 表征会直接影响融合方式。raw point 保留细粒度几何但不规则,voxel 便于 3D 卷积但计算量较大,BEV 把空间压到鸟瞰平面便于检测和多传感器对齐,range view 贴近某些传感器扫描结构,object query 或 token 表征适合 transformer 融合。加入第三模态时,通常需要选择一个统一融合空间,而不是把三个模态简单拼接。

02

几何对齐

雷达点云要和已有模态对齐,首先要处理外参、内参、坐标系和尺度。点云可以投影到图像平面,也可以把图像特征反投影到 3D/BEV 空间,关键是所有模态在同一个自车坐标或世界坐标下表达。外参误差会造成空间错位,所以训练和评估都要关注标定误差的鲁棒性。

03

时间同步和运动补偿

第三模态往往有不同采样频率和时间戳,如果直接融合,会把不同时间的物体位置对到一起。需要按时间戳做插值、同步或最近帧匹配,并结合自车运动和目标运动做补偿。对于动态目标,时间误差可能比空间分辨率误差更致命。

04

点云稀疏噪声处理

雷达点云可能稀疏、噪声较高,并带有强度、速度等额外属性。模型可以对点或 voxel 建置信度,过滤低质量点,使用时间累积增强稠密度,或在 fusion gate 中让模型学习不同场景下信任哪个模态。不能默认第三模态一定提升,噪声处理不好反而会拖累主模态。

05

融合策略调整

早期融合适合标定非常准、模态空间天然对齐的情况;中期融合常见做法是各模态先编码,再投到 BEV/3D token 空间,通过 cross-attention、deformable attention 或门控融合交互;后期融合则更稳健但信息交互弱。第三模态加入后,最好显式建模模态置信度和缺失模态情况。

06

训练和评估

训练上可以加入跨模态一致性、对比学习、辅助检测/分割任务和模态 dropout,让模型在某个模态缺失或质量差时仍稳定。评估不能只看总体 mAP,要按夜间、雨雾、遮挡、远距、小目标、动态目标和标定扰动切片,看雷达点云作为第三模态是否在目标场景带来增益。

易错点

  • 只说把点云特征拼接进去,不讨论坐标系、外参、时间同步和运动补偿。
  • 把雷达点云当成必然提升的强特征,忽略稀疏、噪声和质量波动。
  • 泛泛讲多模态融合,不比较 3D 表征对对齐方式的影响。
  • 只看总体指标,不按遮挡、远距、动态目标和标定扰动切片评估。

面试官追问

为什么 BEV 常用于多传感器融合?

BEV 把不同传感器的信息投到统一地面坐标空间,便于表达物体位置、尺寸和运动关系,也便于和检测、跟踪等 3D 任务衔接。

第三模态噪声很大怎么办?

可以做点级过滤、时间累积、置信度预测、模态 gate、模态 dropout 和不确定性建模,让模型在低质量模态下少依赖它。

早期融合和中期融合怎么选?

早期融合要求标定和同步非常可靠,信息交互充分但对噪声敏感;中期融合先独立编码再对齐交互,更容易处理模态质量差异,是第三模态加入时更稳健的选择。

如何证明第三模态有价值?

做消融实验和场景切片,比较无第三模态、直接融合、置信融合等版本,在遮挡、夜间、远距、动态目标和恶劣条件下看增益。