
摘要
得益于自注意力机制在建模长程依赖方面的强大能力,Transformer 在各类计算机视觉任务中展现出巨大潜力。然而,现有的视觉Transformer将图像视为一维的视觉标记序列,缺乏对局部视觉结构建模的内在归纳偏置(Inductive Bias, IB),且难以有效应对尺度变化问题。为弥补这一不足,现有方法通常依赖大规模训练数据和更长的训练周期,以隐式方式学习归纳偏置。本文提出一种新型视觉Transformer——ViTAE(Vision Transformer Advanced by Exploring intrinsic IB from convolutions),通过显式引入卷积带来的内在归纳偏置,显著提升模型性能。技术上,ViTAE设计了多个空间金字塔下采样模块,利用具有不同膨胀率(dilation rates)的多层卷积,将输入图像高效下采样并嵌入富含多尺度上下文信息的视觉标记中。这一机制赋予模型内在的尺度不变性归纳偏置,使其能够有效学习不同尺度下物体的鲁棒特征表示。此外,在每一Transformer层中,ViTAE在多头自注意力模块之外并行引入一个卷积模块,其输出特征与自注意力特征融合后输入前馈网络。该设计使模型具备内在的局部性归纳偏置,从而能够协同学习局部细节与全局依赖关系。在ImageNet基准以及多个下游任务上的实验结果表明,ViTAE在性能上显著优于基线Transformer模型及现有同类方法。相关源代码与预训练模型将开源发布于GitHub。
代码仓库
Annbless/ViTAE
官方
pytorch
GitHub 中提及
ViTAE-Transformer/ViTAE-Transformer
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-imagenet | ViTAE-T | GFLOPs: 3.0 Top 1 Accuracy: 75.3% |
| image-classification-on-imagenet | ViTAE-13M | GFLOPs: 6.8 Number of params: 13.2M Top 1 Accuracy: 81% |
| image-classification-on-imagenet | ViTAE-T-Stage | GFLOPs: 4.6 Number of params: 4.8M Top 1 Accuracy: 76.8% |
| image-classification-on-imagenet | ViTAE-6M | GFLOPs: 4 Number of params: 6.5M Top 1 Accuracy: 77.9% |
| image-classification-on-imagenet | ViTAE-S-Stage | GFLOPs: 12.0 Number of params: 19.2M Top 1 Accuracy: 82.2% |
| image-classification-on-imagenet | ViTAE-B-Stage | GFLOPs: 27.6 Number of params: 48.5M Top 1 Accuracy: 83.6% |
| video-object-segmentation-on-davis-2016 | ViTAE-T-Stage | F-Score: 90.4 Ju0026F: 89.8 Jaccard (Mean): 89.2 |
| video-object-segmentation-on-davis-2017 | ViTAE-T-Stage | F-Score: 85.5 Ju0026F: 82.5 Jaccard (Mean): 79.4 |