
摘要
Transformer 在各类视觉任务中展现出卓越的性能。其较大的感受野赋予了 Transformer 模型相较于传统卷积神经网络(CNN)更强的表征能力。然而,单纯扩大感受野也带来了若干挑战。一方面,Vision Transformer(ViT)中采用的密集注意力机制导致内存占用和计算开销过高,且特征容易受到感兴趣区域之外无关信息的干扰;另一方面,PVT 或 Swin Transformer 中所采用的手工设计注意力机制具有数据无关性,可能限制了其建模长距离依赖关系的能力。为解决这一矛盾,本文提出一种新型可变形多头注意力模块,该模块在自注意力机制中以数据依赖的方式自适应地分配键(key)与值(value)对的位置。这种灵活的机制使所提出的可变形注意力能够动态聚焦于相关区域,同时保持全局注意力的表征能力。基于此,我们进一步提出了 Deformable Attention Transformer(DAT),一种通用且高效、有效的视觉识别主干网络。在此基础上,我们构建了增强版本 DAT++。大量实验表明,DAT++ 在多个视觉识别基准上均取得了当前最优性能:在 ImageNet 上达到 85.9% 的分类准确率,在 MS-COCO 数据集上实现 54.5 和 47.0 的实例分割 mAP,在 ADE20K 数据集上获得 51.5 的语义分割 mIoU。
代码仓库
leaplabthu/dat
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-imagenet | DAT-S++ | GFLOPs: 9.4 Number of params: 53M Top 1 Accuracy: 84.6% |
| image-classification-on-imagenet | DAT-T++ | GFLOPs: 4.3 Number of params: 24M Top 1 Accuracy: 83.9% |
| image-classification-on-imagenet | DAT-B++ (224x224) | GFLOPs: 16.6 Number of params: 93M Top 1 Accuracy: 84.9% |
| image-classification-on-imagenet | DAT-B++ (384x384) | GFLOPs: 49.7 Number of params: 94M Top 1 Accuracy: 85.9% |
| object-detection-on-coco-2017 | DAT-T++ | AP: 49.2 |
| object-detection-on-coco-2017 | DAT-S++ | AP: 50.2 |
| semantic-segmentation-on-ade20k | DAT-S++ | Validation mIoU: 51.2 |
| semantic-segmentation-on-ade20k | DAT-T++ | Validation mIoU: 50.3 |
| semantic-segmentation-on-ade20k | DAT-B++ | Validation mIoU: 51.5 |