摘要
由于传感器噪声干扰,点云密度不均匀,场景复杂多样以及物体之间存在遮挡现象等问题,使得三维点云场景语义分割问题的研究工作极具挑战性。针对三维点云数据采样密度不均匀以及图卷积网络深度有限的问题,提出一种密度自适应的方法。该方法通过多层感知器学习一个权重函数,利用核密度估计学习一个密度函数,对非均匀采样的点云数据进行卷积操作。同时,受深度学习在图像领域的启发,引入残差连接、空洞卷积等结构,训练更深层的点云分割网络。该算法在多个点云分割的标准数据集上取得了优秀的性能。
近年来,随着三维扫描技术的快速发展,三维点云广泛应用于无人驾驶、建筑设计、遥感测绘及虚拟现实等计算机视觉领域。作为三维场景和分析的重要课题之一,点云语义分割一直是三维视觉和计算机图形学范畴的重要研究问题,也是目标识别、场景理解和三维重建等任务的基础。由于采集过程中的传感器噪声干扰、点云密度不均匀、场景复杂多样以及物体之间存在遮挡现象等问题,三维点云场景语义分割问题研究工作极具挑战性。现有传统的点云分割方法的识别准确率还存在较大提升空间。目前,深度学习方法已广泛应用于二维图像数据,但将深度学习方法应用于三维场景仍面临巨大的挑战,有大量的基础性工作需要完成。由于深度学习方法表现出较好的高层语言理解能力,基于深度学习的点云语义分割已成为当前研究的热点。
卷积神经网络(convolutional neural networks,CNN)成功应用的一个关键因素是能够训练和应用深层神经网络。但是,最近的工
为了成功训练更深层的GCN、减轻梯度消失问题,借鉴了训练深层卷积神经网络的相关概念,引入残差连接、空洞卷积等结构,训练更深层的点云分割网络。同时,由于上述工作的贡献未考虑到三维点云数据无序性、稀疏性和不规则性的特点,传统的卷积神经网络因其计算卷积时需要规则输入和输出,其不适合直接处理点云数据。为了对非均匀采样的点云数据进行卷积操作,提出了一种密度自适应方法。
深度学习的发展推动了计算机视觉的进步。目前,深度学习已广泛应用于二维图像的处
受深度学习在二维图像上取得较好效果的启发,基于多视图的方法将3D点云转化为一系列的多视角拍摄的2D渲染图,将这些产生的二维图像作为训练数据,然后用成熟的2D卷积神经网络来提取特征,从而进行识别或分割任务。在这方面比较具有代表性的方法就是Multi-view CN
基于体素的方法,通过把不规则和无序的点云数据进行体素化操作,使点云数据变成规则化的三维栅格结构,然后使用三维的卷积神经网络架构进行训练。Wu
点云数据本身具有很多特征信息,如果能直接利用这些信息,不仅能减少预处理的过程,而且能更充分地挖掘点云特征信息。因此,近几年基于原始点云的深度网络模型逐渐被提出。Qi等在2017年提出第一个直接对点云数据进行处理而不做预处理的深度学习网络架构PointNe
设图表示点云的局部结构,其中是无序顶点的集合,是表示顶点之间的连通性的边的集合。如果,则顶点和通过边彼此连接。
PointNet网
EdgeCon
传统的卷积神经网络存在致梯度消失问题,导致无法训练很深的神经网络。He
考虑通过卷积网络由层组成,每层实现一个非线性变换,其中表示网络第层。定义可以是诸如卷积(Conv)、池化(Pooling)、校正线性单元(ReLU
(1) |
如

图1 残差连接示意
Fig. 1 Residual connection
传统卷积神经网络通过池化层进行下采样来减少图像大小,同时增大感受野,然后再通过上采样操作将图像恢复成原大小。但是,下采样会降低图像分辨率,造成空间信息损失。Yu
首先需要构建一个扩张领域,在每一个GCN层后使用扩张K近邻(dilated K-NN)去寻找扩张领域,并构建了一个扩张图(dilated graph)。具体来说,对于一个扩张K近邻的输入图,用表示扩张率,扩张K近邻通过跳过每一个邻域,返回邻域内个最近邻居。最近邻是根据预先定义的距离度量确定的,在实验中,使用L2距离,即欧几里得距离(Euclidean Distance)。
让定义为顶点的d-dilated的邻居,如果是排序了的前近的邻居,那么顶点是顶点的d-dilated的邻居。因此,输出图的边定义在一组d-dilated顶点邻域上,如

图2 图像中的空洞卷积和GCN中的空洞卷积
Fig. 2 Dilated convolutions of image and dilated convolutions of GCN
当前传感器采集到的点云密度分布差异非常大。考虑到传感器采集到的3D点云的不均匀性,提出使用密度函数对学到的权重进行加权。点云表示为一组3D点,其中每个点是其坐标加上额外特征通道(例如颜色、法线等)的向量。为简单起见,除非另有说明,这里仅使用坐标作为点的通道。在邻域G中,3D点的相对坐标表示为。函数是以点为中心的局部区域G中一个点的特征。在每个局部区域,可以是局部区域中的任意一点位置。连续函数表示每个点对应的特征的权重,其输入是以为中心的邻域内的点的相对坐标。函数可以使用多层感知器(MLP)来近似。定义密度系数函数,它的输入是点的密度,它的输出是每个点对应的密度系数。
(2) |
文献[
提出的网络模型(如

图3 网络架构
Fig. 3 Network architecture
为了评估本文提出的网络结构的有效性,对点云分割任务进行了广泛的实验。从实验结果可知,本文方法可以显著提高分割准确度。此外,还进行了全面的消融研究,以显示框架中不同结构的效果。
零件分割是一项具有挑战性的点云识别和分割任务。同样在ShapeNet数据集上进行零件分割实验。ShapeNet数据集包含来自16个类别的50个零件的16 881个形状。该任务的输入是点云数据,任务的目标是为点云中的每个点分配一个零件类别标签。给出了每种形状的类别标签。通常,通过使用已知的输入3D对象类别,将可能的零件标签缩小到特定于给定对象类别的部分标签。而且,还将每个点的法线方向计算为输入特征,以更好地描述基础形状。
使用点“交并比(IoU)”来评估的网络,与PointNe
将ShapeNet数据集上零件分割的部分结果可视化,如

图4 ShapeNet零件分割结果
Fig. 4 Result of part segmentation in ShapeNet dataset
斯坦福大学大型3D室内空间S3DIS数据

图5 S3DIS数据
Fig. 5 Visual result of semantic segmentation in S3DIS datase
调查了不同的结构的性能,例如残差连接、空洞卷积、密度自适应;研究了不同参数的影响,例如k-NN邻居数(4、8、16),滤波器数(16、32、64)和网络层数(7、14、28、56);进行了20个实验,并将其结果显示在
(1)残差连接:从
(2)空洞卷积:
(3)K值:
(4)网络层数:按照
(5)滤波器数:
为了成功训练更深层的GCN网络,减轻梯度消失问题,借用了成功训练深层CNN的相关概念,引入残差连接、空洞卷积等结构,训练更深层的点云分割网络。同时,由于3D点云是一种不规则且无序的数据类型,传统的卷积神经网络难以处理点云数据。提出一种密度自适应的方法,可以高效地对非均匀采样的3D点云数据进行卷积操作,该方法在多个数据集上实现了优秀的性能。
作者贡献声明
卫 刚:论文撰写,深度神经网络设计。
赵安铭:论文撰写,深度神经网络设计与程序设计。
王志成:深度神经网络设计与数据分析。
参考文献
LI Q, HAN Z, WU X M. Deeper insights into graph convolutional networks for semi-supervised learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. New Orleans: [s. n.], 2018:1-3. [百度学术]
WU Z, PAN S, CHEN F, et al. A comprehensive survey on graph neural networks[J]. IEEE transactions on neural networks and learning systems, 2020, 32(1):4. [百度学术]
ZHOU J, CUI G, HU S, et al. Graph neural networks: A review of methods and applications[J]. AI Open, 2020, 1: 57. [百度学术]
HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: [s.n.], 2016: 770-778. [百度学术]
YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[J]. arXiv preprint,2015:1511.07122. [百度学术]
REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137. [百度学术]
CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE Transactions on pattern Analysis and Machine Intelligence, 2017, 40(4): 834. [百度学术]
SU H, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3d shape recognition[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago: [s.n.], 2015: 945-953. [百度学术]
QI C R, SU H, NIEßNER M, et al. Volumetric and multi-view cnns for object classification on 3d data[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: [s.n.], 2016: 5648-5656. [百度学术]
BOULCH A, LE SAUX B, AUDEBERT N. Unstructured point cloud semantic labeling using deep segmentation networks[J]. 3DOR: Eurographics Workshop on 3D Object Retrieval, 2017, 2: 7. [百度学术]
GUERRY J, BOULCH A, LE SAUX B, et al. Snapnet-r: Consistent 3d multi-view semantic labeling for robotics[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. Venice: [s.n.], 2017: 669-678. [百度学术]
WU Z, SONG S, KHOSLA A, et al. 3d shapenets: A deep representation for volumetric shapes[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: [s.n.], 2015: 1912-1920. [百度学术]
MATURANA D, SCHERER S. Voxnet: A 3d convolutional neural network for real-time object recognition[C]//2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). [S.l.]: IEEE, 2015: 922-928. [百度学术]
KLOKOV R, LEMPITSKY V. Escape from cells: Deep kd-networks for the recognition of 3d point cloud models[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: [s.n.], 2017: 863-872. [百度学术]
RIEGLER G, OSMAN ULUSOY A, GEIGER A. Octnet: Learning deep 3d representations at high resolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: [s.n.], 2017: 3577-3586. [百度学术]
TCHAPMI L, CHOY C, ARMENI I, et al. Segcloud: Semantic segmentation of 3d point clouds[C]//2017 International Conference on 3D Vision (3DV). [S.l.]: IEEE, 2017: 537-547. [百度学术]
QI C R, SU H, MO K, et al. Pointnet: Deep learning on point sets for 3d classification and segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: [s.n.], 2017: 652-660. [百度学术]
QI C R, YI L, SU H, et al. Pointnet++: Deep hierarchical feature learning on point sets in a metric space[J]. arXiv preprint,2017:1706.02413. [百度学术]
ENGELMANN F, KONTOGIANNI T, HERMANS A, et al. Exploring spatial context for 3D semantic segmentation of point clouds[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops.Venice: [s.n.], 2017: 716-724. [百度学术]
LI Y, BU R, SUN M, et al. PointCNN: Convolution On $\mathcal {X} $-Transformed Points[J]. arXiv preprint, 2018:1801.07791. [百度学术]
LANDRIEU L, SIMONOVSKY M. Large-scale point cloud semantic segmentation with superpoint graphs[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: [s.n.], 2018: 4558-4567. [百度学术]
YI L, SU H, GUO X, et al. Syncspeccnn: Synchronized spectral cnn for 3d shape segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: [s.n.], 2017: 2282-2290. [百度学术]
WANG Y, SUN Y, LIU Z, et al. Dynamic graph cnn for learning on point clouds[J]. Acm Transactions on Graphics, 2019, 38(5): 1. [百度学术]
SU H, JAMPANI V, SUN D, et al. Splatnet: Sparse lattice networks for point cloud processing[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. Salt Lake City: [s.n.], 2018: 2530-2539. [百度学术]
JIANG M, WU Y, ZHAO T, et al. Pointsift: A sift-like network module for 3d point cloud semantic segmentation[J]. arXiv preprint arXiv:1807.00652, 2018. [百度学术]
GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics. Ft. Lauderdale: [s.n.], 2011: 315-323. [百度学术]
IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//International Conference on Machine Learning. Lille: [s.n.], 2015: 448-456. [百度学术]
HERMOSILLA P, RITSCHEL T, VÁZQUEZ P P, et al. Monte carlo convolution for learning on non-uniformly sampled point clouds[J]. ACM Transactions on Graphics, 2018, 37(6): 1. [百度学术]
TURLACH B A. Bandwidth selection in kernel density estimation: A review[C]//Université Catholique de Louvain, Belgium, C. [百度学术]
O.R.E. Institut de Statistique , 1993. [百度学术]
YI L, SHAO L, SAVVA M, et al. Large-scale 3d shape reconstruction and segmentation from shapenet core55[J]. arXiv preprint arXiv:1710.06104, 2017. [百度学术]
ARMENI I, SENER O, ZAMIR A R, et al. 3d semantic parsing of large-scale indoor spaces[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: [s.n.], 2016: 1534-1543. [百度学术]