
摘要
深度/热信息对于检测传统RGB图像中的显著对象非常有益。然而,在双模态显著对象检测(SOD)模型中,对噪声输入和模态缺失的鲁棒性至关重要,但相关研究却很少。为了解决这一问题,我们引入了一种包含两个核心组件的条件丢弃与语言驱动(CoLA)框架。1) 语言驱动质量评估(LQA):利用预训练的视觉-语言模型和提示学习器,LQA在不需要额外质量注释的情况下重新校准图像贡献度。这种方法有效地减轻了噪声输入的影响。2) 条件丢弃(CD):一种学习方法,旨在增强模型在模态缺失情况下的适应能力,同时保持其在模态完整情况下的性能。CD作为一种插件式训练方案,将模态缺失视为条件,从而增强了各种双模态SOD模型的整体鲁棒性。大量实验表明,所提出的方法在模态完整和模态缺失条件下均优于现有的最先进的双模态SOD模型。我们将在论文被接受后发布源代码。
代码仓库
ssecv/CoLA
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| rgb-d-salient-object-detection-on-des | CoLANet | Average MAE: 0.018 S-Measure: 93.5 max E-Measure: 96.3 max F-Measure: 92.5 |
| rgb-d-salient-object-detection-on-nju2k | CoLANet | Average MAE: 0.029 S-Measure: 93.4 max E-Measure: 94.7 max F-Measure: 91.3 |
| rgb-d-salient-object-detection-on-nlpr | CoLANet | Average MAE: 0.021 S-Measure: 93.5 max E-Measure: 95.7 max F-Measure: 90.9 |
| rgb-d-salient-object-detection-on-sip | CoLANet | Average MAE: 0.042 S-Measure: 89.5 max E-Measure: 93.5 max F-Measure: 89.4 |
| rgb-d-salient-object-detection-on-stere | CoLANet | Average MAE: 0.039 S-Measure: 90.8 max E-Measure: 94.1 max F-Measure: 88.9 |