
摘要
近期基于深度神经网络的显著目标检测(SOD)方法取得了显著的性能提升。然而,大多数现有的SOD模型在设计时针对低分辨率输入,在处理高分辨率图像时表现不佳,这是由于采样深度与感受野大小之间的矛盾所致。为了解决这一矛盾,我们提出了一种新颖的一阶段框架——金字塔嫁接网络(Pyramid Grafting Network, PGNet),该框架利用变压器(Transformer)和卷积神经网络(CNN)主干分别从不同分辨率的图像中独立提取特征,然后将变压器分支的特征嫁接到CNN分支。为了使CNN分支在解码过程中能够更全面地结合断裂的详细信息,我们提出了一种基于注意力机制的跨模型嫁接模块(Cross-Model Grafting Module, CMGM),该模块通过不同的源特征进行引导。此外,我们设计了一种注意力引导损失(Attention Guided Loss, AGL),以显式监督由CMGM生成的注意力矩阵,帮助网络更好地与来自不同模型的注意力进行交互。我们贡献了一个新的超高分辨率显著性检测数据集UHRSD,包含5,920张分辨率为4K至8K的图像。据我们所知,这是目前数量和分辨率最大的高分辨率SOD任务数据集,可用于未来研究中的训练和测试。在UHRSD及广泛使用的SOD数据集上进行的充分实验表明,我们的方法相比现有最先进方法具有优越的性能。
代码仓库
icvteam/pgnet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| rgb-salient-object-detection-on-davis-s | PGNet | F-measure: 0.931 MAE: 0.015 S-measure: 0.935 mBA: 0.707 |
| rgb-salient-object-detection-on-davis-s | PGNet (DUTS, HRSOD) | F-measure: 0.948 MAE: 0.012 S-measure: 0.947 mBA: 0.716 |
| rgb-salient-object-detection-on-davis-s | PGNet (HRSOD, UHRSD) | F-measure: 0.956 MAE: 0.010 S-measure: 0.954 mBA: 0.730 |
| rgb-salient-object-detection-on-hrsod | PGNet (DUTS, HRSOD) | MAE: 0.020 S-Measure: 0.935 mBA: 0.714 max F-Measure: 0.929 |
| rgb-salient-object-detection-on-hrsod | PGNet | MAE: 0.021 S-Measure: 0.930 mBA: 0.693 max F-Measure: 0.922 |
| rgb-salient-object-detection-on-hrsod | PGNet (HRSOD, UHRSD) | MAE: 0.020 S-Measure: 0.938 mBA: 0.727 max F-Measure: 0.939 |
| rgb-salient-object-detection-on-uhrsd | PGNet (DUTS, HRSOD) | MAE: 0.036 S-Measure: 0.912 mBA: 0.735 max F-Measure: 0.915 |
| rgb-salient-object-detection-on-uhrsd | PGNet (HRSOD, UHRSD) | MAE: 0.026 S-Measure: 0.935 mBA: 0.765 max F-Measure: 0.930 |
| rgb-salient-object-detection-on-uhrsd | PGNet | MAE: 0.037 S-Measure: 0.912 mBA: 0.715 max F-Measure: 0.914 |