4 个月前

重新思考RGB-D显著物体检测:模型、数据集和大规模基准测试

重新思考RGB-D显著物体检测:模型、数据集和大规模基准测试

摘要

近年来,RGB-D信息在显著目标检测中的应用已得到广泛研究。然而,对于现实世界中人类活动场景的RGB-D显著目标检测建模,相关研究相对较少。本工作通过以下贡献填补了这一空白,推动了RGB-D显著目标检测的发展。我们精心收集了一个新的SIP(显著人物)数据集,包含约1000张高分辨率图像,涵盖了从不同视角、姿态、遮挡、光照和背景下的多样化现实场景。我们进行了大规模(迄今为止最全面的)基准测试,比较了当前的方法。这在该领域一直是一个缺失的部分,可以作为未来研究的基线。我们系统地总结了32种流行的模型,并在包含总计约97000张图像的七个数据集上评估了其中18个部分。我们提出了一种简单通用的架构,称为深度深度净化网络(Deep Depth-Depurator Network, D3Net)。该网络由一个深度净化单元(Depth Depurator Unit, DDU)和一个三流特征学习模块(Three-Stream Feature Learning Module, FLM)组成,分别用于低质量深度图的过滤和跨模态特征的学习。这些组件形成了嵌套结构,并被精心设计为联合学习。D3Net在所有五个评估指标上均超过了以往任何竞争对手的表现,因此成为推动该领域研究的强大模型。此外,我们还展示了D3Net可以高效地从真实场景中提取显著目标掩码,以每秒65帧的速度在单个GPU上实现有效的背景更换应用。所有显著性图、我们的新SIP数据集、D3Net模型以及评估工具均已公开发布于https://github.com/DengPingFan/D3NetBenchmark。

代码仓库

taozh2017/RGBD-SODsurvey
GitHub 中提及
DengPingFan/D3NetBenchmark
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
rgb-d-salient-object-detection-on-lfsdD3Net
Average MAE: 0.095
S-Measure: 82.5
max E-Measure: 86.2
max F-Measure: 81.0
rgb-d-salient-object-detection-on-nju2kD3Net
Average MAE: 0.046
S-Measure: 90.0
max E-Measure: 93.9
max F-Measure: 90.0
rgb-d-salient-object-detection-on-nlprD3Net
Average MAE: 0.030
S-Measure: 91.2
max E-Measure: 95.3
max F-Measure: 89.7
rgb-d-salient-object-detection-on-sipD3Net
Average MAE: 0.063
S-Measure: 86.0
max E-Measure: 90.9
max F-Measure: 86.1
rgb-d-salient-object-detection-on-ssdD3Net
Average MAE: 0.058
S-Measure: 85.7
max E-Measure: 91.0
max F-Measure: 83.4
rgb-d-salient-object-detection-on-stereD3Net
Average MAE: 0.046
S-Measure: 89.9
max E-Measure: 93.8
max F-Measure: 89.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新思考RGB-D显著物体检测:模型、数据集和大规模基准测试 | 论文 | HyperAI超神经