3 个月前

TranSalNet:面向感知相关性的视觉显著性预测

TranSalNet:面向感知相关性的视觉显著性预测

摘要

基于Transformer的视觉显著性预测卷积神经网络(CNN)在显著性预测的计算建模方面已取得显著进展。然而,准确模拟人类大脑皮层中视觉注意机制仍是学术界的一项挑战。将人类视觉特性融入CNN架构设计,对于提升显著性预测的感知相关性至关重要。由于CNN架构固有的归纳偏置,其在长距离上下文信息编码方面能力有限,这限制了基于CNN的显著性模型捕捉人类视觉行为特性的能力。相比之下,Transformer通过自注意力机制在建模长距离依赖关系方面展现出巨大潜力。本文提出一种新型显著性预测模型,将Transformer组件与CNN相结合,以捕捉长距离上下文视觉信息。实验结果表明,引入Transformer显著提升了显著性预测的性能,增强了模型的感知相关性。所提出的基于Transformer的显著性预测模型TranSalNet在多个公开基准数据集和显著性预测竞赛中均取得了领先性能。本模型的源代码已公开,可访问:https://github.com/LJOVO/TranSalNet

代码仓库

ljovo/transalnet
官方
pytorch

基准测试

基准方法指标
saliency-prediction-on-mit300TranSalNet
AUC-Judd: 0.8734
CC: 0.807
KLD: 1.0141
NSS: 2.4134
SIM: 0.6895
sAUC: 0.7467
saliency-prediction-on-saleciTransalnet
KL: 0.873
saliency-prediction-on-saliconTranSalNet
AUC: 0.868
CC: 0.907
KLD: 0.373
NSS: 2.014
SIM: 0.803
sAUC: 0.747

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TranSalNet:面向感知相关性的视觉显著性预测 | 论文 | HyperAI超神经