
摘要
多年来,视觉识别领域一直由卷积神经网络(CNNs)主导。尽管近期主流的视觉Transformer(ViTs)在ImageNet分类任务中展现出基于自注意力机制模型的巨大潜力,但在未使用额外数据的情况下,其性能仍不及最新的SOTA CNN模型。在本工作中,我们致力于缩小这一性能差距,并证明基于注意力机制的模型确实具备超越CNN的能力。我们发现,制约ViTs在ImageNet分类任务中表现的关键因素在于其在将细粒度特征有效编码至token表示方面效率较低。为解决该问题,我们提出了一种新颖的“远景注意力”(outlook attention)机制,并设计了一种简洁且通用的网络架构,称为视觉远景器(Vision Outlooker, VOLO)。与侧重于粗粒度全局依赖建模的自注意力机制不同,远景注意力能够高效地将更细粒度的特征与上下文信息融入token表示中,这一特性被证实对识别性能具有关键提升作用,但长期以来被自注意力机制所忽视。实验结果表明,我们的VOLO在ImageNet-1K分类任务上达到了87.1%的Top-1准确率,是首个在该竞争性基准上突破87%准确率的模型,且无需使用任何额外训练数据。此外,预训练的VOLO在下游任务中也表现出良好的迁移能力,例如在Cityscapes验证集上实现了84.3%的mIoU得分,在ADE20K验证集上达到54.3%的mIoU得分。代码已开源,地址为:\url{https://github.com/sail-sg/volo}。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| domain-generalization-on-vizwiz | VOLO-D5 | Accuracy - All Images: 57.2 Accuracy - Clean Images: 59.7 Accuracy - Corrupted Images: 51.8 |
| image-classification-on-imagenet | VOLO-D5 | GFLOPs: 412 Number of params: 296M Top 1 Accuracy: 87.1% |
| image-classification-on-imagenet | VOLO-D2 | Number of params: 59M Top 1 Accuracy: 86% |
| image-classification-on-imagenet | VOLO-D1 | Number of params: 27M Top 1 Accuracy: 85.2% |
| image-classification-on-imagenet | VOLO-D3 | GFLOPs: 67.9 Number of params: 86M Top 1 Accuracy: 86.3% |
| image-classification-on-imagenet | VOLO-D4 | GFLOPs: 197 Number of params: 193M Top 1 Accuracy: 86.8% |
| image-classification-on-imagenet-real | VOLO-D5 | Accuracy: 90.6% |
| image-classification-on-imagenet-real | VOLO-D4 | Accuracy: 90.5% |
| image-classification-on-imagenet-v2 | VOLO-D4 | Top 1 Accuracy: 77.8 |
| image-classification-on-imagenet-v2 | VOLO-D5 | Top 1 Accuracy: 78 |
| image-classification-on-vizwiz-classification | VOLO-D5 | Accuracy: 57.2 |
| semantic-segmentation-on-ade20k | VOLO-D5 | Validation mIoU: 54.3 |
| semantic-segmentation-on-cityscapes-val | VOLO-D4 (MS, ImageNet1k pretrain) | mIoU: 84.3 |
| semantic-segmentation-on-graz-02 | VOLO-D5 | Pixel Accuracy: 85 |