6 个月前

摘要

在本工作中，我们提出了双注意力视觉Transformer（Dual Attention Vision Transformers，简称DaViT），这是一种结构简洁但效果显著的视觉Transformer架构，能够在保持计算高效性的同时捕捉全局上下文信息。我们从一个正交的视角出发，提出同时利用“空间token”与“通道token”的自注意力机制。在空间token中，空间维度定义了token的作用范围，而通道维度则决定了token的特征维度；而在通道token中，二者角色互换：通道维度定义token的作用范围，空间维度则决定其特征维度。为进一步维持整个模型的线性计算复杂度，我们对空间token和通道token在序列方向上分别进行分组处理。实验表明，这两种自注意力机制具有良好的互补性：（i）由于每个通道token均包含对整幅图像的抽象表征，通道注意力在计算通道间注意力得分时，能够自然地整合所有空间位置的信息，从而有效捕捉全局交互与表示；（ii）空间注意力通过在空间位置之间进行细粒度交互，优化局部特征表示，进而增强通道注意力中的全局信息建模能力。大量实验证明，DaViT在四项不同任务上均取得了当前最优的性能表现，且计算效率优异。在不依赖额外数据的情况下，DaViT-Tiny、DaViT-Small和DaViT-Base在ImageNet-1K数据集上分别实现了82.8%、84.2%和84.6%的Top-1准确率，参数量分别为2830万、4970万和8790万。当进一步利用15亿个弱监督图像与文本对进行模型扩展时，DaViT-Giant在ImageNet-1K上达到了90.4%的Top-1准确率。代码已开源，详见：https://github.com/dingmyu/davit。

源 PDF