
摘要
多层级特征融合是计算机视觉领域的一个基础性课题,已被广泛应用于不同尺度下的目标检测、分割与分类任务。当多层级特征与多模态信息相结合时,如何实现最优的特征聚合以及有效的多模态学习策略,便成为亟待解决的难题。本文针对RGB-D显著目标检测固有的多模态与多层级特性,提出了一种新颖的级联精炼网络架构。具体而言,首先,我们采用分叉式主干网络策略(Bifurcated Backbone Strategy, BBS),将多层级特征重新划分为教师特征与学生特征;其次,引入深度增强模块(Depth-Enhanced Module, DEM),从通道与空间两个视角深入挖掘深度信息中的有效线索;随后,通过互补的方式实现RGB与深度模态的特征融合。所提出的网络架构被命名为分叉式主干网络(Bifurcated Backbone Strategy Network, BBS-Net),其结构简洁、高效,且不依赖特定主干网络。大量实验表明,BBS-Net在八个具有挑战性的数据集上,于五种评估指标下均显著超越了十八种当前最优(SOTA)模型,展现出优越的性能(在S-measure指标上相较排名第一的DMRA-iccv2019模型提升约4%)。此外,本文还对不同RGB-D数据集的泛化能力进行了全面分析,并为未来的研究提供了强有力的训练数据集。
代码仓库
zyjwuyan/BBS-Net
官方
pytorch
GitHub 中提及
DengPingFan/BBS-Net
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| rgb-d-salient-object-detection-on-des | BBS-Net | Average MAE: 0.021 S-Measure: 93.3 max E-Measure: 96.6 max F-Measure: 92.7 |
| rgb-d-salient-object-detection-on-lfsd | BBS-Net | Average MAE: 0.072 S-Measure: 86.4 max E-Measure: 90.1 max F-Measure: 85.8 |
| rgb-d-salient-object-detection-on-nlpr | BBS-Net | Average MAE: 0.023 S-Measure: 93.0 max E-Measure: 96.1 max F-Measure: 91.8 |
| rgb-d-salient-object-detection-on-sip | BBS-Net | Average MAE: 0.055 S-Measure: 87.9 max E-Measure: 92.2 max F-Measure: 88.3 |
| rgb-d-salient-object-detection-on-ssd | BBS-Net | Average MAE: 0.044 S-Measure: 88.2 max E-Measure: 91.9 max F-Measure: 85.9 |
| rgb-d-salient-object-detection-on-stere | BBS-Net | Average MAE: 0.041 S-Measure: 90.8 max E-Measure: 94.2 max F-Measure: 90.3 |