4 个月前

DFormer:重新思考RGBD表征学习以用于语义分割

DFormer:重新思考RGBD表征学习以用于语义分割

摘要

我们介绍了DFormer,这是一种新颖的RGB-D预训练框架,用于学习可迁移的表示以应用于RGB-D分割任务。DFormer具有两项关键创新:1)与以往通过RGB预训练骨干网络编码RGB-D信息的方法不同,我们使用ImageNet-1K中的图像-深度对来预训练骨干网络,从而使DFormer具备了编码RGB-D表示的能力;2)DFormer包含一系列专门设计的RGB-D模块,这些模块通过一种新的构建块设计来同时编码RGB和深度信息。DFormer避免了现有方法中普遍存在的问题,即使用RGB预训练骨干网络时深度图中的3D几何关系编码不匹配的问题,而这一问题在现有方法中尚未得到解决。我们在两个流行的RGB-D任务上对预训练的DFormer进行了微调,即RGB-D语义分割和RGB-D显著目标检测,并采用了轻量级解码器头。实验结果表明,我们的DFormer在这两个任务上均实现了新的最先进性能,并且在两个RGB-D语义分割数据集和五个RGB-D显著目标检测数据集上的计算成本不到当前最佳方法的一半。我们的代码可在以下地址获取:https://github.com/VCIP-RGBD/DFormer。

代码仓库

VCIP-RGBD/DFormer
pytorch
GitHub 中提及

基准测试

基准方法指标
rgb-d-salient-object-detection-on-desDFormer-L
Average MAE: 0.013
S-Measure: 94.8
max E-Measure: 98.0
max F-Measure: 95.6
rgb-d-salient-object-detection-on-nju2kDFormer-L
Average MAE: 0.023
S-Measure: 93.7
max E-Measure: 96.4
max F-Measure: 94.6
rgb-d-salient-object-detection-on-nlprDFormer-L
Average MAE: 0.016
S-Measure: 94.2
max E-Measure: 97.1
max F-Measure: 93.9
rgb-d-salient-object-detection-on-sipDFormer-L
Average MAE: 0.032
S-Measure: 91.5
max E-Measure: 95.0
max F-Measure: 93.8
rgb-d-salient-object-detection-on-stereDFormer-L
Average MAE: 0.030
S-Measure: 92.3
max E-Measure: 95.2
max F-Measure: 92.9
semantic-segmentation-on-nyu-depth-v2DFormer-T
Mean IoU: 51.8%
semantic-segmentation-on-nyu-depth-v2DFormer-L
Mean IoU: 57.2%
semantic-segmentation-on-nyu-depth-v2DFormer-B
Mean IoU: 55.6%
semantic-segmentation-on-nyu-depth-v2DFormer-S
Mean IoU: 53.6%
semantic-segmentation-on-sun-rgbdDFormer-L
Mean IoU: 52.5%
semantic-segmentation-on-sun-rgbdFSFNet
Mean IoU: 48.8%
semantic-segmentation-on-sun-rgbdDFormer-B
Mean IoU: 51.2%
semantic-segmentation-on-sun-rgbdTokenFusion (S)
Mean IoU: 50.0%
semantic-segmentation-on-syn-udtiriDFormer
IoU: 90.88

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DFormer:重新思考RGBD表征学习以用于语义分割 | 论文 | HyperAI超神经