3 个月前

基于像素差分卷积网络的RGB-D语义分割

基于像素差分卷积网络的RGB-D语义分割

摘要

得益于深度(Depth)数据的可用性,RGB-D语义分割可通过卷积神经网络(CNN)得到显著提升。尽管仅依靠二维外观(2D appearance)难以有效区分物体,但结合深度图中的局部像素差异与几何结构特征,在某些情况下仍可实现较好的物体分离。然而,由于CNN固有的固定网格卷积核结构,其在捕捉细节性、细粒度信息方面存在局限,因而难以实现精确的像素级语义分割。为解决上述问题,本文提出一种像素差异卷积网络(Pixel Difference Convolutional Network, PDCNet),通过在局部范围内融合深度数据的强度与梯度信息,并在全局范围内融合RGB数据的上下文信息,以捕捉更精细的内在模式。具体而言,PDCNet由深度分支与RGB分支构成。在深度分支中,我们设计了一种像素差异卷积(Pixel Difference Convolution, PDC),通过聚合局部区域内的强度与梯度信息,有效建模深度数据中的局部几何细节。在RGB分支中,我们提出一种轻量级级联大卷积核(Cascade Large Kernel, CLK),将其与PDC相结合,形成CPDC模块,从而为RGB数据引入全局上下文感知能力,进一步提升模型性能。因此,在信息传播过程中,PDCNet能够无缝融合两种模态数据的局部与全局像素差异特征。在两个具有挑战性的基准数据集NYUDv2与SUN RGB-D上的实验结果表明,所提出的PDCNet在语义分割任务中达到了当前最优(state-of-the-art)性能。

基准测试

基准方法指标
semantic-segmentation-on-nyu-depth-v2PDCNet (ResNet-101)
Mean IoU: 53.5%
semantic-segmentation-on-sun-rgbdCMX (B4)
Mean IoU: 49.6%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于像素差分卷积网络的RGB-D语义分割 | 论文 | HyperAI超神经