
摘要
与RGB语义分割相比,RGBD语义分割通过考虑深度信息可以实现更好的性能。然而,当前的分割器在有效利用RGBD信息方面仍存在困难,因为RGB图像和深度(D)图像在不同场景中的特征分布差异显著。本文提出了一种注意力互补网络(ACNet),该网络有选择性地从RGB分支和深度分支中收集特征。主要贡献在于注意力互补模块(ACM)和具有三个并行分支的架构。具体而言,ACM是一种基于通道注意力的模块,可以从RGB分支和深度分支中提取加权特征。该架构保留了原始RGB分支和深度分支的推理能力,同时启用了融合分支。基于上述结构,ACNet能够从不同的通道中提取更多高质量的特征。我们在SUN-RGBD和NYUDv2数据集上评估了我们的模型,并证明我们的模型优于现有最先进方法。特别是,在使用ResNet50的情况下,我们的模型在NYUDv2测试集上达到了48.3%的mIoU分数。我们将在https://github.com/anheidelonghu/ACNet发布基于PyTorch的源代码以及训练好的分割模型。
代码仓库
anheidelonghu/ACNet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-kitti-360 | ACNet (ResNet50) | mIoU: 61.57 |
| semantic-segmentation-on-nyu-depth-v2 | ACNet | Mean IoU: 48.3% |
| semantic-segmentation-on-sun-rgbd | CMX (B4) | Mean IoU: 48.1% |
| semantic-segmentation-on-thud-robotic-dataset | ACNet | mIoU: 74.83 |
| thermal-image-segmentation-on-mfn-dataset | ACNet | mIOU: 46.3 |
| thermal-image-segmentation-on-pst900 | ACNet | mIoU: 71.81 |