3 个月前

DaViT:双注意力视觉Transformer

DaViT:双注意力视觉Transformer

摘要

在本工作中,我们提出了双注意力视觉Transformer(Dual Attention Vision Transformers,简称DaViT),这是一种结构简洁但效果显著的视觉Transformer架构,能够在保持计算高效性的同时捕捉全局上下文信息。我们从一个正交的视角出发,提出同时利用“空间token”与“通道token”的自注意力机制。在空间token中,空间维度定义了token的作用范围,而通道维度则决定了token的特征维度;而在通道token中,二者角色互换:通道维度定义token的作用范围,空间维度则决定其特征维度。为进一步维持整个模型的线性计算复杂度,我们对空间token和通道token在序列方向上分别进行分组处理。实验表明,这两种自注意力机制具有良好的互补性:(i)由于每个通道token均包含对整幅图像的抽象表征,通道注意力在计算通道间注意力得分时,能够自然地整合所有空间位置的信息,从而有效捕捉全局交互与表示;(ii)空间注意力通过在空间位置之间进行细粒度交互,优化局部特征表示,进而增强通道注意力中的全局信息建模能力。大量实验证明,DaViT在四项不同任务上均取得了当前最优的性能表现,且计算效率优异。在不依赖额外数据的情况下,DaViT-Tiny、DaViT-Small和DaViT-Base在ImageNet-1K数据集上分别实现了82.8%、84.2%和84.6%的Top-1准确率,参数量分别为2830万、4970万和8790万。当进一步利用15亿个弱监督图像与文本对进行模型扩展时,DaViT-Giant在ImageNet-1K上达到了90.4%的Top-1准确率。代码已开源,详见:https://github.com/dingmyu/davit。

基准测试

基准方法指标
image-classification-on-imagenetDaViT-B (ImageNet-22k)
GFLOPs: 46.4
Number of params: 87.9M
Top 1 Accuracy: 86.9%
image-classification-on-imagenetDaViT-T
Number of params: 28.3M
Top 1 Accuracy: 82.8%
image-classification-on-imagenetDaViT-B
GFLOPs: 15.5
Number of params: 87.9M
Top 1 Accuracy: 84.6%
image-classification-on-imagenetDaViT-L (ImageNet-22k)
GFLOPs: 103
Number of params: 196.8M
Top 1 Accuracy: 87.5%
image-classification-on-imagenetDaViT-H
GFLOPs: 334
Number of params: 362M
Top 1 Accuracy: 90.2%
image-classification-on-imagenetDaViT-G
GFLOPs: 1038
Number of params: 1437M
Top 1 Accuracy: 90.4%
instance-segmentation-on-coco-minivalDaViT-T (Mask R-CNN, 36 epochs)
mask AP: 44.3
medical-image-classification-on-imagenetDaViT-T
GFLOPs: 4.5
medical-image-classification-on-imagenetDaViT-S
GFLOPs: 8.8
Top 1 Accuracy: 84.2%
object-detection-on-coco-minivalDaViT-T (Mask R-CNN, 36 epochs)
box AP: 49.9
semantic-segmentation-on-ade20kDaViT-T
Validation mIoU: 46.3
semantic-segmentation-on-ade20kDaViT-B
Validation mIoU: 49.4
semantic-segmentation-on-ade20k-valDaViT-B (UperNet)
mIoU: 46.3
semantic-segmentation-on-ade20k-valDaViT-S (UperNet)
mIoU: 48.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DaViT:双注意力视觉Transformer | 论文 | HyperAI超神经