
摘要
视觉注意力建模在解释和优先处理视觉刺激方面具有重要意义,在市场营销、多媒体和机器人技术等领域发挥着重要作用。传统的显著性预测模型,尤其是基于卷积神经网络(CNNs)或变压器(Transformers)的模型,通过利用大规模标注数据集取得了显著的成功。然而,当前最先进的(SOTA)使用变压器的模型计算成本较高。此外,通常需要为每种图像类型分别构建不同的模型,缺乏统一的方法。本文提出了一种新的方法——Mamba 统一显著性建模(Saliency Unification through Mamba, SUM),该方法将 Mamba 高效的长程依赖建模与 U-Net 结合,为多种图像类型提供了一个统一的模型。通过引入一种新颖的条件视觉状态空间(Conditional Visual State Space, C-VSS)模块,SUM 能够动态适应各种图像类型,包括自然场景、网页和商业图像,确保其在不同数据类型中的普遍适用性。我们在五个基准数据集上的全面评估表明,SUM 无缝适应不同的视觉特征,并且始终优于现有模型。这些结果使 SUM 成为了一个多功能且强大的工具,推动了视觉注意力建模的发展,提供了适用于不同类型视觉内容的稳健解决方案。
代码仓库
Arhosseini77/SUM
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| saliency-detection-on-cat2000 | SUM | AUC: 0.888 NSS: 2.423 |
| saliency-prediction-on-cat2000 | SUM | KL: 0.27 |
| saliency-prediction-on-mit300 | SUM | AUC-Judd: 0.913 CC: 0.768 KLD: 0.563 NSS: 2.839 SIM: 0.63 |
| saliency-prediction-on-saleci | SUM | KL: 0.473 |
| saliency-prediction-on-salicon | SUM | AUC: 0.876 CC: 0.909 KLD: 0.192 NSS: 1.981 SIM: 0.804 |