
摘要
我们介绍了DFormer,这是一种新颖的RGB-D预训练框架,用于学习可迁移的表示以应用于RGB-D分割任务。DFormer具有两项关键创新:1)与以往通过RGB预训练骨干网络编码RGB-D信息的方法不同,我们使用ImageNet-1K中的图像-深度对来预训练骨干网络,从而使DFormer具备了编码RGB-D表示的能力;2)DFormer包含一系列专门设计的RGB-D模块,这些模块通过一种新的构建块设计来同时编码RGB和深度信息。DFormer避免了现有方法中普遍存在的问题,即使用RGB预训练骨干网络时深度图中的3D几何关系编码不匹配的问题,而这一问题在现有方法中尚未得到解决。我们在两个流行的RGB-D任务上对预训练的DFormer进行了微调,即RGB-D语义分割和RGB-D显著目标检测,并采用了轻量级解码器头。实验结果表明,我们的DFormer在这两个任务上均实现了新的最先进性能,并且在两个RGB-D语义分割数据集和五个RGB-D显著目标检测数据集上的计算成本不到当前最佳方法的一半。我们的代码可在以下地址获取:https://github.com/VCIP-RGBD/DFormer。
代码仓库
VCIP-RGBD/DFormer
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| rgb-d-salient-object-detection-on-des | DFormer-L | Average MAE: 0.013 S-Measure: 94.8 max E-Measure: 98.0 max F-Measure: 95.6 |
| rgb-d-salient-object-detection-on-nju2k | DFormer-L | Average MAE: 0.023 S-Measure: 93.7 max E-Measure: 96.4 max F-Measure: 94.6 |
| rgb-d-salient-object-detection-on-nlpr | DFormer-L | Average MAE: 0.016 S-Measure: 94.2 max E-Measure: 97.1 max F-Measure: 93.9 |
| rgb-d-salient-object-detection-on-sip | DFormer-L | Average MAE: 0.032 S-Measure: 91.5 max E-Measure: 95.0 max F-Measure: 93.8 |
| rgb-d-salient-object-detection-on-stere | DFormer-L | Average MAE: 0.030 S-Measure: 92.3 max E-Measure: 95.2 max F-Measure: 92.9 |
| semantic-segmentation-on-nyu-depth-v2 | DFormer-T | Mean IoU: 51.8% |
| semantic-segmentation-on-nyu-depth-v2 | DFormer-L | Mean IoU: 57.2% |
| semantic-segmentation-on-nyu-depth-v2 | DFormer-B | Mean IoU: 55.6% |
| semantic-segmentation-on-nyu-depth-v2 | DFormer-S | Mean IoU: 53.6% |
| semantic-segmentation-on-sun-rgbd | DFormer-L | Mean IoU: 52.5% |
| semantic-segmentation-on-sun-rgbd | FSFNet | Mean IoU: 48.8% |
| semantic-segmentation-on-sun-rgbd | DFormer-B | Mean IoU: 51.2% |
| semantic-segmentation-on-sun-rgbd | TokenFusion (S) | Mean IoU: 50.0% |
| semantic-segmentation-on-syn-udtiri | DFormer | IoU: 90.88 |