1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > LIF-Seg 激光雷达与相机图像融合的三维激光雷达语义分割

LIF-Seg 激光雷达与相机图像融合的三维激光雷达语义分割

时间:2022-02-04 02:19:46

相关推荐

LIF-Seg 激光雷达与相机图像融合的三维激光雷达语义分割

LIF-Seg 激光雷达与相机图像融合的三维激光雷达语义分割

论文 LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic Segmentation 暂时未发表

论文地址:/abs/2108.07511

摘要:

相机和三维激光雷达传感器已经成为现代自动驾驶汽车的重要设备,相机提供了二维空间中细粒度的纹理、颜色信息,而激光雷达捕获了周围环境更精确、更远的距离测量。来自这两个传感器的互补信息使双模态融合成为一种理想的选择。然而,相机与激光雷达融合的两个主要问题阻碍了其性能,即如何有效融合这两种模式以及如何精确对齐(存在弱时空同步问题)。在本文中,我们提出了一个基于粗到细激光雷达和相机融合的网络(称为lifg - seg)用于激光雷达分割。对于第一个问题,与之前的研究不同的是,该方法充分利用了图像的上下文信息,引入了一种简单有效的早期融合策略。其次,针对弱时空同步问题,设计了一种偏置校正方法来校正这些双模态特征。这两部分的配合是成功实现有效的相机-激光雷达融合的关键。在nuScenes数据集上的实验结果表明,该方法与现有方法相比具有较大的优势。消融研究和分析表明,我们提出的lifg - seg能够有效地解决弱时空同步问题。

随着自动驾驶技术的快速发展,三维场景感知近年来受到越来越多的关注,特别是在计算机视觉和深度学习领域。激光雷达已经成为自动驾驶中不可或缺的三维传感器。与其他传感器(如相机和雷达)的数据相比,激光雷达获取的点云可以提供丰富的几何、尺度信息、精确的距离测量和精细的语义描述,对于理解自动驾驶规划和执行的3D场景非常有帮助。

激光雷达点云语义分割的目的是为每个三维点分配一个特殊的语义类别,这是自动驾驶的关键任务。这个任务可以帮助感知系统识别和定位动态物体和可驾驶表面。虽然经典的3D目标检测任务已经开发出了相对成熟的解决方案[1],[2],[3],以支持现实世界的自动驾驶,但对可驾驶表面的识别和定位存在困难。一般情况下,LiDAR点云是稀疏的,且稀疏度通常随着反射距离的增加而增加,这使得语义分割模型难以对距离内的小物体进行分割,如图1所示。

如上所述,虽然激光雷达点可以提供精确的距离测量和捕获物体的结构,但它们通常是稀疏的,无序的,分布不均匀的。最近,一些方法[5],[6],[7],[8]仅基于激光雷达有计数3 d语义分割的性能改善,但这些方法的性能仍然是有限的,因为缺乏密集和丰富的信息对象(如颜色,纹理,描绘在图1的权利。与点云相比,相机图像包含更规则、更密集的像素,具有更丰富的语义信息(如颜色、纹理)来区分不同的语义类别,但缺乏深度和尺度信息。因此,来自激光雷达和相机的互补信息使得两种模式的融合成为一种理想的选择。然而,如何有效地融合这两种模式,使我们能够充分利用这两种传感器的优势,产生更好、更可靠、更准确的语义分割结果。

最近出现了一些包含LiDAR点云和图像的自动驾驶数据集,如KITTI[9]和nuScenes[4]。这些数据集不仅为点云与图像的优势结合提供了可能性,而且对学术界和业界的点云语义分割的发展起到了重要的推动作用。但如图2所示,激光雷达与相机之间存在较弱的时空同步问题。一些策略可以用来缓解这个问题。例如,KITTI和nuScenes使用带有时间戳的传感器元数据重新排列点云和图像,但仍然存在一定的偏差。弱时空同步问题也限制了相机与激光雷达融合的性能。

基于上述发现,我们提出了一个由粗到细的框架liff - seg,融合了LiDAR和cam时代的3D LiDAR点云语义分割。对于第一个问题,与这些作品融合点云和图像信息以一对一的方式,在粗阶段,激光雷达点投射到每个摄像机图像,每个像素的3×3上下文信息是连接的强度测量激光雷达点。将拼接的LiDAR点输入到UNet分割子网络(如:Cylinder3D)中,获得粗糙的LiDAR点特征。针对弱时空同步问题,设计了一种偏置校正方法,对粗特征和图像语义特征进行对齐。具体来说,利用网络下的图像语义分割(如DeepLabv3+[10])提取图像语义特征。将粗特征投影到每一幅图像中。将投影粗特征与图像语义特征进行融合,预测投影点与对应图像语义像素之间的偏移量。

利用预测偏移量对两模态特征进行补偿和对齐,然后将对齐后的图像语义特征与粗特征进行融合。在精化阶段,融合后的特征被输入到一个子网络中,精化并生成更准确的预测。该方法不仅融合了激光雷达的点特征和不同层次的图像特征,而且有效地解决了激光雷达与摄像机之间的弱时空同步问题。

本研究的主要贡献如下:(1)充分利用低层图像的背景信息,引入一种简单有效的早期融合策略。(2)提出了一种偏置校正方法来解决激光雷达与相机之间的弱时空同步问题。(3)构建了一种基于激光雷达和相机融合的网络lif - seg进行激光雷达语义分割。在nuScenes数据集上的实验结果验证了该方法的有效性。

相关工作

在本节中,我们将简要回顾与我们方法相关的现有工作:3D点云深度学习、LiDAR点云语义分割、LiDAR与相机融合方法、图像语义分割。特别地,我们重点研究了基于激光雷达和基于融合的方法。

A. Deep learning for 3D Point Clouds

与二维图像处理方法不同,点云处理具有不规则、无序的特性,是一项具有挑战性的任务。PointNet[11]是通过共享的多层感知器(MLP)和max-pooling直接学习原始点云的点特征的首批作品之一。后来的一些作品[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]往往是在前人作品(如PointNet、PointNet++)的基础上,进一步提升ef的采样、分组、排序的有效性,以提高语义分词的性能。其他方法[21]、[22]、[23]通过引入图网络提取层次点特征。虽然这些方法在室内点云上取得了很好的分割效果,但由于场景密度变化大、场景范围大,大多数方法无法直接训练或放大到室外大型激光雷达点云。此外,大量的点也导致这些方法在适应户外场景时计算和内存消耗昂贵。

B. LiDAR Point Cloud Semantic Segmentation

随着公共数据集[4]、[24]可用性的提高,激光雷达点云语义分割研究正在开展。目前,这些方法可以分为三大类:基于投影的方法、基于体素的方法和基于多视图融合的方法。

基于投影的方法主要是将三维点云映射为规则稠密的二维图像,利用二维CNN对伪图像进行处理。SqueezeSeg[25]、SqueezeSegv2[26]、RangeNet++[27]、SalsaNext[28]和KPRNet[5]利用球面投影机制将点云转换为距离图像,并采用编码器-解码器网络获取语义信息。例如,KPRNet[5]提出了一种改进的体系结构,并通过使用强大的res下-101骨干和Atrous空间金字塔池(ASPP)块取得了很好的效果,它还使用KPConv[29]作为分割头,以取代低效的KNN后处理。PolarNet[30]利用极地鸟瞰视图(BEV),而不是标准的基于网格的二维BEV投影。然而,这些基于投影的方法不可避免地会丢失和改变原有的拓扑结构,导致几何信息建模失败。

基于体素的方法将点云转化为体素,然后应用普通的3D卷积获得分割结果

最近,提出了一些[31],[32]的工作来加速三维卷积,以更少的计算量和内存消耗来提高性能。在之前的工作[31],[32],3D-MPA [15], PointGroup[33]和OccuSeg[34]在室内点云上得到了显著的分割结果。如上所述,由于室外点云的稀疏性和密度变化等固有特性,这些方法不能直接用于室外LiDAR点云分割的生成。此外,Cylinder3D[6]采用圆柱分割,并设计了非对称残块,进一步减少计算量。

基于多视图融合的方法结合了基于体素、基于投影和/或基于点的操作对LiDAR点云进行分割。为了提取更多的语义信息,最近的一些方法[35]、[36]、[37]、[38]、[39]、[40]、[41]、[7]、[8]将两种或多种不同的视图混合在一起。例如,[38]、[39]在早期将BEV和距离图像的逐点信息结合,然后将其反馈给后续的网络。AMVNet[37]利用不同视图输出的不确定性进行后期融合。PVCNN[35]、FusionNet[40]和(AF)2 -S3Net[7]采用点体素融合方案获得更好的分割结果。RPVNet[8]提出了一种深度融合网络,利用门控融合机制融合距离点体素三视图。然而,由于激光雷达点云缺乏丰富的颜色和纹理,这些方法的性能也受到限制。

LiDAR and Camera Fusion Methods

为了充分利用相机和LiDAR传感器的优势,提出了相机和LiDAR融合的方法[42],[43],[44],[45],[46],[47],[48],[49],[50],特别是在三维目标检测任务中。

PI-RCNN[47]通过对3D点进行逐点卷积,融合了摄像机和激光雷达的特性,并应用与聚合操作的点池。clos[48]在任何2D和3D探测器的非最大抑制之前的组合输出候选。3D-CVF[49]结合了相机和激光雷达的特点,通过交叉视图空间特征融合策略,以更好的检测性能。EPNet[50]提出了一种激光雷达引导的图像融合模块,利用相应的图像语义特征在多尺度上增强激光雷达点特征。

PointPainting[46]将激光雷达点投影到一个纯图像语义分割网络的输出中,并将类分数附加到每个点上,然后将其提供给一个lidar检测器。这些方法在三维目标检测中取得了良好的效果。然而,在之前的研究中,很少有一些结合了相机和激光雷达的优势,专注于三维语义分割,解决了相机和激光雷达之间传感器的弱时空同步问题。

D. Image Semantic Segmentation

图像语义分割是计算机视觉中一个重要的基础任务,已经取得了很大的进展。FCN[51]是直接采用全卷积层生成图像语义分割结果的开创性工作。DeepLab[10]家族利用atrous卷积和ASPP模块来捕获图像的上下文信息。STDC2[52]通过使用细节引导模块对低级空间信息进行编码,减少了推理时间,但性能相对较低。在效率和性能的权衡下,本文采用了DeepLabv3+[10]作为图像分割子模型。

III. PROPOSED METHOD

该方法利用激光雷达和摄像机的优势互补,对激光雷达点云语义分割的准确性具有重要意义。然而,现有的方法大多没有充分利用相机图像上下文信息,忽略了激光雷达与相机之间的弱时空同步问题,限制了融合模型对细粒度模式的识别能力。本文提出了一个由粗到细的LIFSeg框架,从前期低层次图像上下文信息融合和中期对齐的高层图像语义信息融合两个方面来提高LiDAR分割的性能。lifa - seg接受激光雷达点和相机图像作为输入,并预测每个点的语义标签。该算法主要分为三个阶段:粗特征提取阶段、偏移学习阶段和精化阶段。我们将在下面的小节中详细介绍这三个方面。

A. Coarse Feature Extraction Stage粗特征提取

激光雷达点可以提供精确的距离测量和捕捉物体的结构,相机图像包含更规则和密集的像素,具有更丰富的语义信息。一些方法[46],[47],[48]尝试在不同的阶段(如早期融合,中期融合和晚期融合)融合LiDAR和相机视图进行三维目标检测。这些方法中大多数只以一对一的方式融合低级或高级图像信息。在融合激光雷达和相机的视图时,图像的上下文信息也很重要。

在粗化阶段,将激光雷达点与低层图像的上下文信息融合得到粗化特征。

如图3和算法1所示,LiDAR点L中的每个点都有空间位置(x, y, z)和反射率r等。通过同质变换和投影,将激光雷达点信息转化为相机图像信息。这个过程可以表述如下:

​ idx=KiTiLxyz,

式中Ki和Ti分别为相机图像Ii对应的相机内参矩阵和齐次变换矩阵。idx∈RN×2为LiDAR点L在相机图像Ii上的索引(像素坐标),其中N为LiDAR点个数。一般的变换由Tcam←lidar给出。对于nuScenes数据集,完整转换到每个相机是:

Ti=T(camegoi)T(egoi←g)T(gegos)T(egos←lidar),(2)

通过变换:LiDAR帧到车体本身帧,通过时间戳进行转换T(ego←LiDAR);车体本身帧到全局帧T(g←ego);全局帧转换为图像T的时间戳的自车帧(egoi←g);并自拍杆到相机T(cam←egoi)。将LiDAR点变换到摄像机坐标后,对应的摄像机矩阵Ki将这些点投影到图像Ii中。然后,将每个投影点位置的w × w(如3×3)图像上下文信息进行整形并连接到相应的LiDAR点上。将拼接后的点输入UNet语义分割子网络(如:Cylinder3d[6]),得到粗特征Fcoarse。

Offset Learning Stageoffset学习阶段

虽然早期融合和中期融合的方法在基准数据集上取得了很好的效果,但由于激光雷达与相机之间的时空同步问题较弱,这些方法的性能也受到了限制。为了解决上述问题,我们提出的lif - seg预测投影的LiDAR点和相应像素之间的偏移。利用预测偏移量补偿和更新投影点特征的位置,然后将对齐后的图像语义特征与粗特征融合,实现更好的分割。

在这一阶段,如图4和算法1所示,我们首先利用图像语义分割子网络对图像的高级语义特征进行的提取。在效率和性能的权衡下,我们采用DeepLabv3+[10]作为图像分割子网络,提取图像特征。同时,将粗特征Fcoarse投影到图像特征映射中,形成与图像特征大小相同的伪图像特征映射f点。

将特征映射Fpoints与图像语义特征Fimage融合,预测投影的LiDAR点与对应像素之间的偏移量。预测偏移量可以用来补偿和更新投影点在图像特征中的位置。然后,根据更新后的位置,将图像语义特征Fimage反投影到三维空间,生成逐点特征F0图像。利用逐点图像特征F0图像与粗特征Fcoarse融合,提高激光雷达分割性能。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。