结合互补的传感器模式对于为自动驾驶(AD)等安全关键型机器人应用提供强大的感知至关重要。最近用于AD的最先进的相机-激光雷达融合方法依赖于单目深度估计,与直接使用来自激光雷达的深度信息相比,这是一项众所周知的困难任务。
在这里,作者发现这种方法没有像预期的那样利用深度,并且表明简单地改进深度估计不会导致对象检测性能的改进,并且令人惊讶的是,完全删除深度估计不会降低对象检测性能。这表明,在相机-激光雷达融合过程中,依赖单目深度可能是不必要的架构瓶颈。
在这项工作中,作者引入了一种新颖的融合方法,该方法完全绕过单目深度估计,而是使用简单的注意力机制在鸟瞰网格中选择和融合相机和激光雷达特征。
作者表明,作者的模型可以根据激光雷达功能的可用性来调整其对相机功能的使用,并且与依赖单目深度估计的基线相比,它在nuScenes数据集上产生更好的3D对象检测。
01??介绍
高效、有效地集成来自不同模式的信息在自动驾驶等安全关键型应用中尤其重要,其中不同的传感器模式是互补的,将它们充分组合对于保证安全至关重要。例如,相机可以捕获远距离物体的丰富语义信息,而激光雷达提供极其准确的深度信息,但在远距离处却稀疏。因此,许多现代自动驾驶平台都拥有大量不同的传感器,必须将这些传感器组合在一起,才能提供对周围场景的准确可靠的感知,并允许这些车辆在现实世界中安全部署。
多模态传感器融合——学习来自多个传感器的场景的统一表示——为这个问题提供了一个可行的解决方案。然而,训练此类多模态模型可能具有挑战性,尤其是当模态与相机(RGB图像)和激光雷达(3D点云)不同时。例如,众所周知,不同的模态以不同的速率过度拟合和泛化[53],并且联合训练所有模态可能导致较弱模态的利用不足,甚至在某些情况下与单模态模型相比结果较差[37]。
在自动驾驶的背景下,许多最新的相机-激光雷达融合方法[14,28,33]都是基于Lift-Splat(LS)范式[38]1。在这种方法中,相机特征在与激光雷达特征融合之前使用单目深度投影在鸟瞰图(BEV)或自上而下的空间中。因此,BEV中相机特征的位置高度依赖于单目深度预测的质量,并且有人认为其准确性至关重要[14,28]。在这项工作中,作者重新考虑这些主张,并表明这些模型内的单目深度预测质量很差,无法解释它们的成功。特别是,作者提出的结果表明,当单目深度预测被激光雷达点云的直接深度估计取代或完全删除时,基于Lift-Splat的方法表现同样出色。这让作者认为,在融合相机和激光雷达功能时依赖单目深度是一个不必要的架构瓶颈,并且Lift-Splat可以被更有效的投影机制取代。
作者引入了一种名为“Lift-Attend-Splat”的相机-激光雷达融合新颖方法,该方法完全绕过单目深度估计,而是使用简单的变压器选择并融合BEV中的相机和激光雷达功能。作者提供的证据表明,与基于单眼深度估计的方法相比,作者的方法显示出更好的相机利用率,并且它提高了对象检测性能。作者的贡献如下:
·?作者表明,基于Lift-Splat范式的相机-激光雷达融合方法没有按预期利用深度。特别是,作者表明,如果完全删除单目深度预测,它们的性能相同或更好。
·?作者引入了一种新颖的相机-激光雷达融合方法,该方法使用简单的注意力机制将相机和激光雷达功能融合到BEV中。作者证明,与基于Lift-Splat范例的模型相比,它可以提高相机利用率并改进3D对象检测。
02??相关工作
用于自动驾驶的3D物体检测?对于3D物体检测,大多数基准测试以使用激光雷达点云的方法为主,因为与仅使用摄像头或雷达的方法相比,激光雷达点云的高度精确的距离测量可以更好地放置3D物体。用于点云分类的深度学习方法在[40,41]的开创性工作中首创,早期工作已将类似的想法应用于3D对象检测[42,45]。最近的一系列方法基于3D空间的直接体素化[59,65]或将激光雷达表示沿z方向压缩为“柱子”[22,60]。这些方法非常成功,并且是许多后续工作的基础[15,19,62]。3D物体检测的任务也可以仅通过多个摄像机来解决。早期的工作大多基于各种两阶段方法[4,20,42,54],而最近的方法直接利用单目深度估计[3,21,43]。当没有激光雷达时,这项任务很困难,因为必须仅使用图像来估计3D信息,这是一个具有挑战性的问题。然而,最近的工作通过借鉴激光雷达检测管道[7,11,16]的想法,通过改进位置嵌入[31]和3D查询[18],以及利用时间聚合[12,25,30,32,52,67]或2D语义分割[64]表现出了令人印象深刻的性能。
相机-激光雷达融合?可以通过联合利用相机和激光雷达(如