3 个月前

视觉注意力网络

视觉注意力网络

摘要

尽管最初专为自然语言处理任务设计,自注意力机制近年来已在计算机视觉多个领域引发广泛关注。然而,图像的二维特性为自注意力机制在计算机视觉中的应用带来了三大挑战:(1)将图像视为一维序列会忽略其固有的二维结构;(2)二次方复杂度对高分辨率图像而言计算开销过大;(3)仅能捕捉空间上的自适应性,而忽略了通道层面的自适应能力。为此,本文提出一种新型线性注意力机制——大核注意力(Large Kernel Attention, LKA),能够在保持自适应性和长距离依赖建模能力的同时,有效规避上述缺陷。进一步地,我们基于LKA构建了一种新型神经网络结构,称为视觉注意力网络(Visual Attention Network, VAN)。尽管结构极为简洁,VAN在多项视觉任务中均显著超越了同等规模的视觉Transformer(ViT)与卷积神经网络(CNN),涵盖图像分类、目标检测、语义分割、全景分割、姿态估计等任务。例如,VAN-B6在ImageNet基准上达到87.8%的准确率,并在全景分割任务上创下58.2 PQ的新纪录,刷新了当前最先进水平。此外,VAN-B2在ADE20K语义分割任务上以50.1%的mIoU超越Swin-T模型4个百分点(46.1%),在COCO目标检测任务上以48.8%的AP表现领先Swin-T模型2.6个百分点(46.2%)。该工作为社区提供了一种新颖的方法与一个简洁而强大的基准模型。代码已开源,地址为:https://github.com/Visual-Attention-Network。

基准测试

基准方法指标
image-classification-on-imagenetVAN-B6 (22K)
GFLOPs: 38.9
Number of params: 200M
Top 1 Accuracy: 86.9%
image-classification-on-imagenetVAN-B4 (22K, 384res)
GFLOPs: 35.9
Number of params: 60M
Top 1 Accuracy: 86.6%
image-classification-on-imagenetVAN-B5 (22K, 384res)
GFLOPs: 50.6
Top 1 Accuracy: 87%
image-classification-on-imagenetVAN-B2
GFLOPs: 5
Number of params: 26.6M
Top 1 Accuracy: 82.8%
image-classification-on-imagenetVAN-B5 (22K)
GFLOPs: 17.2
Number of params: 90M
Top 1 Accuracy: 86.3%
image-classification-on-imagenetVAN-B1
GFLOPs: 2.5
Number of params: 13.9M
Top 1 Accuracy: 81.1%
image-classification-on-imagenetVAN-B4 (22K)
GFLOPs: 12.2
Top 1 Accuracy: 85.7%
image-classification-on-imagenetVAN-B6 (22K, 384res)
GFLOPs: 114.3
Number of params: 200M
Top 1 Accuracy: 87.8%
image-classification-on-imagenetVAN-B0
GFLOPs: 0.9
Number of params: 4.1M
Top 1 Accuracy: 75.4%
panoptic-segmentation-on-coco-minivalVisual Attention Network (VAN-B6 + Mask2Former)
PQ: 58.2
PQst: 48.2
PQth: 64.8
panoptic-segmentation-on-coco-panopticVAN-B6*
PQ: 58.2
semantic-segmentation-on-ade20kVAN-Large
Params (M): 49
Validation mIoU: 48.1
semantic-segmentation-on-ade20kVAN-Tiny
Params (M): 8
Validation mIoU: 38.5
semantic-segmentation-on-ade20kVAN-Small
Params (M): 18
Validation mIoU: 42.9
semantic-segmentation-on-ade20kVAN-B6
Validation mIoU: 54.7
semantic-segmentation-on-ade20kVAN-Base (Semantic-FPN)
Validation mIoU: 46.7
semantic-segmentation-on-ade20kVAN-Large (HamNet)
Params (M): 55
Validation mIoU: 50.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉注意力网络 | 论文 | HyperAI超神经