6 个月前

摘要

得益于深度（Depth）数据的可用性，RGB-D语义分割可通过卷积神经网络（CNN）得到显著提升。尽管仅依靠二维外观（2D appearance）难以有效区分物体，但结合深度图中的局部像素差异与几何结构特征，在某些情况下仍可实现较好的物体分离。然而，由于CNN固有的固定网格卷积核结构，其在捕捉细节性、细粒度信息方面存在局限，因而难以实现精确的像素级语义分割。为解决上述问题，本文提出一种像素差异卷积网络（Pixel Difference Convolutional Network, PDCNet），通过在局部范围内融合深度数据的强度与梯度信息，并在全局范围内融合RGB数据的上下文信息，以捕捉更精细的内在模式。具体而言，PDCNet由深度分支与RGB分支构成。在深度分支中，我们设计了一种像素差异卷积（Pixel Difference Convolution, PDC），通过聚合局部区域内的强度与梯度信息，有效建模深度数据中的局部几何细节。在RGB分支中，我们提出一种轻量级级联大卷积核（Cascade Large Kernel, CLK），将其与PDC相结合，形成CPDC模块，从而为RGB数据引入全局上下文感知能力，进一步提升模型性能。因此，在信息传播过程中，PDCNet能够无缝融合两种模态数据的局部与全局像素差异特征。在两个具有挑战性的基准数据集NYUDv2与SUN RGB-D上的实验结果表明，所提出的PDCNet在语义分割任务中达到了当前最优（state-of-the-art）性能。

源 PDF