
摘要
大多数现有的显著目标检测方法主要使用U-Net或特征金字塔结构,这些方法简单地聚合不同尺度的特征图,忽略了它们的独特性和相互依赖性及其对最终预测的各自贡献。为了解决这些问题,我们提出了M$^3$Net,即多层级、混合和多阶段注意力网络(Multilevel, Mixed and Multistage attention network for Salient Object Detection, SOD)。首先,我们提出了一种多尺度交互块(Multiscale Interaction Block),创新性地引入了交叉注意力机制来实现多层级特征之间的交互,使高层次特征能够指导低层次特征的学习,从而增强显著区域。其次,考虑到先前基于Transformer的SOD方法仅使用全局自注意力来定位显著区域,而不可避免地忽视了复杂对象的细节,我们提出了混合注意力块(Mixed Attention Block)。该模块结合了全局自注意力和窗口自注意力,旨在从全局和局部两个层面建模上下文信息,以进一步提高预测图的准确性。最后,我们提出了一种多层级监督策略,逐阶段优化聚合特征。在六个具有挑战性的数据集上的实验表明,所提出的M$^3$Net在四项指标上超越了最近的CNN和基于Transformer的SOD技术。代码可在https://github.com/I2-Multimedia-Lab/M3Net 获取。
代码仓库
I2-Multimedia-Lab/M3Net
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| salient-object-detection-on-dut-omron | M3Net-R | MAE: 0.061 S-Measure: 0.848 Weighted F-Measure: 0.769 |
| salient-object-detection-on-dut-omron | M3Net-S | MAE: 0.045 S-Measure: 0.872 Weighted F-Measure: 0.811 |
| salient-object-detection-on-duts-te | M3Net-R | MAE: 0.036 S-Measure: 0.897 Weighted F-Measure: 0.849 |
| salient-object-detection-on-duts-te | M3Net-S | MAE: 0.024 S-Measure: 0.927 Weighted F-Measure: 0.902 |
| salient-object-detection-on-ecssd | M3Net-R | MAE: 0.029 S-Measure: 0.931 Weighted F-Measure: 0.919 |
| salient-object-detection-on-ecssd | M3Net-S | MAE: 0.021 S-Measure: 0.948 Weighted F-Measure: 0.947 |
| salient-object-detection-on-hku-is | M3Net-S | MAE: 0.019 S-Measure: 0.943 Weighted F-Measure: 0.937 |
| salient-object-detection-on-hku-is | M3Net-R | MAE: 0.026 S-Measure: 0.929 Weighted F-Measure: 0.913 |
| salient-object-detection-on-pascal-s | M3Net-R | MAE: 0.06 S-Measure: 0.868 Weighted F-Measure: 0.827 |
| salient-object-detection-on-pascal-s | M3Net-S | MAE: 0.047 S-Measure: 0.889 Weighted F-Measure: 0.864 |