加入雷达点云作为第三模态时，3D 多模态感知如何调整表征和对齐策略？｜小米算法面经解析

60 秒回答模板

加入雷达点云后，我会先重新审视统一表征。原始点表征保留几何细节但融合成本高，voxel/BEV 更适合和图像特征、其他 3D 特征在空间上对齐，query/token 表征适合用 cross-attention 做中后期融合。第三模态带来的第一类问题是几何和时间对齐：外参、坐标系、时间戳、运动补偿和采样频率都要校准。第二类问题是数据形态：雷达点云可能更稀疏、有噪声或带速度/强度等属性，需要置信度和不确定性建模。融合上可以先把各模态投到统一 BEV/3D 坐标，再做 attention 或门控融合，并设计缺失模态训练、跨模态一致性损失和分场景评估，保证第三模态在夜间、遮挡、远距等场景真正带来增益。

考点 统一表征

难度 真实面经题

回答目标 讲清原理、实现和边界

深入解析

先比较 3D 表征

不同 3D 表征会直接影响融合方式。raw point 保留细粒度几何但不规则，voxel 便于 3D 卷积但计算量较大，BEV 把空间压到鸟瞰平面便于检测和多传感器对齐，range view 贴近某些传感器扫描结构，object query 或 token 表征适合 transformer 融合。加入第三模态时，通常需要选择一个统一融合空间，而不是把三个模态简单拼接。

几何对齐

雷达点云要和已有模态对齐，首先要处理外参、内参、坐标系和尺度。点云可以投影到图像平面，也可以把图像特征反投影到 3D/BEV 空间，关键是所有模态在同一个自车坐标或世界坐标下表达。外参误差会造成空间错位，所以训练和评估都要关注标定误差的鲁棒性。

时间同步和运动补偿

第三模态往往有不同采样频率和时间戳，如果直接融合，会把不同时间的物体位置对到一起。需要按时间戳做插值、同步或最近帧匹配，并结合自车运动和目标运动做补偿。对于动态目标，时间误差可能比空间分辨率误差更致命。

点云稀疏噪声处理

雷达点云可能稀疏、噪声较高，并带有强度、速度等额外属性。模型可以对点或 voxel 建置信度，过滤低质量点，使用时间累积增强稠密度，或在 fusion gate 中让模型学习不同场景下信任哪个模态。不能默认第三模态一定提升，噪声处理不好反而会拖累主模态。

融合策略调整

早期融合适合标定非常准、模态空间天然对齐的情况；中期融合常见做法是各模态先编码，再投到 BEV/3D token 空间，通过 cross-attention、deformable attention 或门控融合交互；后期融合则更稳健但信息交互弱。第三模态加入后，最好显式建模模态置信度和缺失模态情况。

训练和评估

训练上可以加入跨模态一致性、对比学习、辅助检测/分割任务和模态 dropout，让模型在某个模态缺失或质量差时仍稳定。评估不能只看总体 mAP，要按夜间、雨雾、遮挡、远距、小目标、动态目标和标定扰动切片，看雷达点云作为第三模态是否在目标场景带来增益。

易错点

只说把点云特征拼接进去，不讨论坐标系、外参、时间同步和运动补偿。
把雷达点云当成必然提升的强特征，忽略稀疏、噪声和质量波动。
泛泛讲多模态融合，不比较 3D 表征对对齐方式的影响。
只看总体指标，不按遮挡、远距、动态目标和标定扰动切片评估。

面试官追问

为什么 BEV 常用于多传感器融合？

BEV 把不同传感器的信息投到统一地面坐标空间，便于表达物体位置、尺寸和运动关系，也便于和检测、跟踪等 3D 任务衔接。

第三模态噪声很大怎么办？

可以做点级过滤、时间累积、置信度预测、模态 gate、模态 dropout 和不确定性建模，让模型在低质量模态下少依赖它。

早期融合和中期融合怎么选？

早期融合要求标定和同步非常可靠，信息交互充分但对噪声敏感；中期融合先独立编码再对齐交互，更容易处理模态质量差异，是第三模态加入时更稳健的选择。

如何证明第三模态有价值？

做消融实验和场景切片，比较无第三模态、直接融合、置信融合等版本，在遮挡、夜间、远距、动态目标和恶劣条件下看增益。