
摘要
近年来,RGB-D语义分割受到了越来越多的关注。现有方法大多采用同质化的卷积算子来处理RGB与深度特征,忽略了二者之间的本质差异。事实上,RGB值捕捉的是投影图像空间中的光度外观特性,而深度特征则同时编码了局部几何形状及其在更大上下文中的位置(基底)信息。相较于位置信息,几何形状可能更具内在性,并与语义具有更强的关联性,因此对分割精度更为关键。受此观察启发,我们提出一种面向深度特征处理的形状感知卷积层(Shape-aware Convolution,简称ShapeConv)。该方法首先将深度特征分解为形状分量与基底分量,随后引入两个可学习的权重,分别独立地与这两个分量协同作用,最后对经过重加权后的两部分进行卷积操作。ShapeConv具有模型无关性,可轻松集成至大多数卷积神经网络(CNN)中,替代原有的标准卷积层,用于语义分割任务。在三个具有挑战性的室内RGB-D语义分割基准数据集(NYU-Dv2-13、NYU-Dv2-40、SUN RGB-D和SID)上的大量实验表明,无论在五种主流网络架构中,采用ShapeConv均能显著提升性能。更重要的是,引入ShapeConv后,模型在推理阶段的计算量与内存开销均未增加。其原因在于:ShapeConv中用于平衡形状与基底分量重要性的学习权重在推理阶段变为固定常数,可被融合至后续的卷积层中,从而实现与原始标准卷积网络等效的结构,无需额外开销。
代码仓库
hanchaoleng/shapeconv
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-gamus | ShapeConv | mIoU: 55.86 |
| semantic-segmentation-on-llrgbd-synthetic | ShapeConv (ResNeXt-101) | mIoU: 63.26 |
| semantic-segmentation-on-nyu-depth-v2 | ShapeConv (ResNet-101) | Mean IoU: 49.0% |
| semantic-segmentation-on-nyu-depth-v2 | ShapeConv (ResNext-101) | Mean IoU: 51.3% |
| semantic-segmentation-on-nyu-depth-v2 | ShapeConv (ResNet-50) | Mean IoU: 48.8% |
| semantic-segmentation-on-stanford2d3d-rgbd | ShapeConv-101 | Pixel Accuracy: 82.7 mAcc: 70.0 mIoU: 60.6 |
| semantic-segmentation-on-sun-rgbd | PSD-ResNet50 | Mean IoU: 48.6% |
| thermal-image-segmentation-on-rgb-t-glass | ShapeConv | MAE: 0.054 |