
摘要
近年来,RGB-D信息在显著目标检测中的应用已得到广泛研究。然而,对于现实世界中人类活动场景的RGB-D显著目标检测建模,相关研究相对较少。本工作通过以下贡献填补了这一空白,推动了RGB-D显著目标检测的发展。我们精心收集了一个新的SIP(显著人物)数据集,包含约1000张高分辨率图像,涵盖了从不同视角、姿态、遮挡、光照和背景下的多样化现实场景。我们进行了大规模(迄今为止最全面的)基准测试,比较了当前的方法。这在该领域一直是一个缺失的部分,可以作为未来研究的基线。我们系统地总结了32种流行的模型,并在包含总计约97000张图像的七个数据集上评估了其中18个部分。我们提出了一种简单通用的架构,称为深度深度净化网络(Deep Depth-Depurator Network, D3Net)。该网络由一个深度净化单元(Depth Depurator Unit, DDU)和一个三流特征学习模块(Three-Stream Feature Learning Module, FLM)组成,分别用于低质量深度图的过滤和跨模态特征的学习。这些组件形成了嵌套结构,并被精心设计为联合学习。D3Net在所有五个评估指标上均超过了以往任何竞争对手的表现,因此成为推动该领域研究的强大模型。此外,我们还展示了D3Net可以高效地从真实场景中提取显著目标掩码,以每秒65帧的速度在单个GPU上实现有效的背景更换应用。所有显著性图、我们的新SIP数据集、D3Net模型以及评估工具均已公开发布于https://github.com/DengPingFan/D3NetBenchmark。
代码仓库
taozh2017/RGBD-SODsurvey
GitHub 中提及
DengPingFan/D3NetBenchmark
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| rgb-d-salient-object-detection-on-lfsd | D3Net | Average MAE: 0.095 S-Measure: 82.5 max E-Measure: 86.2 max F-Measure: 81.0 |
| rgb-d-salient-object-detection-on-nju2k | D3Net | Average MAE: 0.046 S-Measure: 90.0 max E-Measure: 93.9 max F-Measure: 90.0 |
| rgb-d-salient-object-detection-on-nlpr | D3Net | Average MAE: 0.030 S-Measure: 91.2 max E-Measure: 95.3 max F-Measure: 89.7 |
| rgb-d-salient-object-detection-on-sip | D3Net | Average MAE: 0.063 S-Measure: 86.0 max E-Measure: 90.9 max F-Measure: 86.1 |
| rgb-d-salient-object-detection-on-ssd | D3Net | Average MAE: 0.058 S-Measure: 85.7 max E-Measure: 91.0 max F-Measure: 83.4 |
| rgb-d-salient-object-detection-on-stere | D3Net | Average MAE: 0.046 S-Measure: 89.9 max E-Measure: 93.8 max F-Measure: 89.1 |