4 个月前

SUM:通过Mamba实现视觉注意模型的显著性统一

SUM:通过Mamba实现视觉注意模型的显著性统一

摘要

视觉注意力建模在解释和优先处理视觉刺激方面具有重要意义,在市场营销、多媒体和机器人技术等领域发挥着重要作用。传统的显著性预测模型,尤其是基于卷积神经网络(CNNs)或变压器(Transformers)的模型,通过利用大规模标注数据集取得了显著的成功。然而,当前最先进的(SOTA)使用变压器的模型计算成本较高。此外,通常需要为每种图像类型分别构建不同的模型,缺乏统一的方法。本文提出了一种新的方法——Mamba 统一显著性建模(Saliency Unification through Mamba, SUM),该方法将 Mamba 高效的长程依赖建模与 U-Net 结合,为多种图像类型提供了一个统一的模型。通过引入一种新颖的条件视觉状态空间(Conditional Visual State Space, C-VSS)模块,SUM 能够动态适应各种图像类型,包括自然场景、网页和商业图像,确保其在不同数据类型中的普遍适用性。我们在五个基准数据集上的全面评估表明,SUM 无缝适应不同的视觉特征,并且始终优于现有模型。这些结果使 SUM 成为了一个多功能且强大的工具,推动了视觉注意力建模的发展,提供了适用于不同类型视觉内容的稳健解决方案。

代码仓库

Arhosseini77/SUM
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
saliency-detection-on-cat2000SUM
AUC: 0.888
NSS: 2.423
saliency-prediction-on-cat2000SUM
KL: 0.27
saliency-prediction-on-mit300SUM
AUC-Judd: 0.913
CC: 0.768
KLD: 0.563
NSS: 2.839
SIM: 0.63
saliency-prediction-on-saleciSUM
KL: 0.473
saliency-prediction-on-saliconSUM
AUC: 0.876
CC: 0.909
KLD: 0.192
NSS: 1.981
SIM: 0.804

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SUM:通过Mamba实现视觉注意模型的显著性统一 | 论文 | HyperAI超神经