
摘要
基于Transformer的视觉显著性预测卷积神经网络(CNN)在显著性预测的计算建模方面已取得显著进展。然而,准确模拟人类大脑皮层中视觉注意机制仍是学术界的一项挑战。将人类视觉特性融入CNN架构设计,对于提升显著性预测的感知相关性至关重要。由于CNN架构固有的归纳偏置,其在长距离上下文信息编码方面能力有限,这限制了基于CNN的显著性模型捕捉人类视觉行为特性的能力。相比之下,Transformer通过自注意力机制在建模长距离依赖关系方面展现出巨大潜力。本文提出一种新型显著性预测模型,将Transformer组件与CNN相结合,以捕捉长距离上下文视觉信息。实验结果表明,引入Transformer显著提升了显著性预测的性能,增强了模型的感知相关性。所提出的基于Transformer的显著性预测模型TranSalNet在多个公开基准数据集和显著性预测竞赛中均取得了领先性能。本模型的源代码已公开,可访问:https://github.com/LJOVO/TranSalNet
代码仓库
ljovo/transalnet
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| saliency-prediction-on-mit300 | TranSalNet | AUC-Judd: 0.8734 CC: 0.807 KLD: 1.0141 NSS: 2.4134 SIM: 0.6895 sAUC: 0.7467 |
| saliency-prediction-on-saleci | Transalnet | KL: 0.873 |
| saliency-prediction-on-salicon | TranSalNet | AUC: 0.868 CC: 0.907 KLD: 0.373 NSS: 2.014 SIM: 0.803 sAUC: 0.747 |