3 个月前

DAT++:具有可变形注意力的空间动态视觉Transformer

DAT++:具有可变形注意力的空间动态视觉Transformer

摘要

Transformer 在各类视觉任务中展现出卓越的性能。其较大的感受野赋予了 Transformer 模型相较于传统卷积神经网络(CNN)更强的表征能力。然而,单纯扩大感受野也带来了若干挑战。一方面,Vision Transformer(ViT)中采用的密集注意力机制导致内存占用和计算开销过高,且特征容易受到感兴趣区域之外无关信息的干扰;另一方面,PVT 或 Swin Transformer 中所采用的手工设计注意力机制具有数据无关性,可能限制了其建模长距离依赖关系的能力。为解决这一矛盾,本文提出一种新型可变形多头注意力模块,该模块在自注意力机制中以数据依赖的方式自适应地分配键(key)与值(value)对的位置。这种灵活的机制使所提出的可变形注意力能够动态聚焦于相关区域,同时保持全局注意力的表征能力。基于此,我们进一步提出了 Deformable Attention Transformer(DAT),一种通用且高效、有效的视觉识别主干网络。在此基础上,我们构建了增强版本 DAT++。大量实验表明,DAT++ 在多个视觉识别基准上均取得了当前最优性能:在 ImageNet 上达到 85.9% 的分类准确率,在 MS-COCO 数据集上实现 54.5 和 47.0 的实例分割 mAP,在 ADE20K 数据集上获得 51.5 的语义分割 mIoU。

代码仓库

leaplabthu/dat
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-imagenetDAT-S++
GFLOPs: 9.4
Number of params: 53M
Top 1 Accuracy: 84.6%
image-classification-on-imagenetDAT-T++
GFLOPs: 4.3
Number of params: 24M
Top 1 Accuracy: 83.9%
image-classification-on-imagenetDAT-B++ (224x224)
GFLOPs: 16.6
Number of params: 93M
Top 1 Accuracy: 84.9%
image-classification-on-imagenetDAT-B++ (384x384)
GFLOPs: 49.7
Number of params: 94M
Top 1 Accuracy: 85.9%
object-detection-on-coco-2017DAT-T++
AP: 49.2
object-detection-on-coco-2017DAT-S++
AP: 50.2
semantic-segmentation-on-ade20kDAT-S++
Validation mIoU: 51.2
semantic-segmentation-on-ade20kDAT-T++
Validation mIoU: 50.3
semantic-segmentation-on-ade20kDAT-B++
Validation mIoU: 51.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DAT++:具有可变形注意力的空间动态视觉Transformer | 论文 | HyperAI超神经