
摘要
近年来,视觉Transformer(Vision Transformer, ViT)及其改进变体的进展表明,基于自注意力机制的网络在大多数视觉任务中已超越传统的卷积神经网络(Convolutional Neural Networks, CNNs)。然而,现有的ViT主要关注标准准确率与计算开销,缺乏对模型鲁棒性与泛化能力内在影响的系统性研究。本文针对ViT各组件在对抗样本、常见数据畸变以及分布偏移等场景下的鲁棒性影响,开展了系统的评估。研究发现,部分组件反而会损害模型的鲁棒性。基于此,我们通过选取并组合具有鲁棒性的组件作为构建模块,提出了一种新型视觉Transformer——鲁棒视觉Transformer(Robust Vision Transformer, RVT),其在保持优异性能的同时展现出更强的鲁棒性。为进一步提升RVT的性能,我们还提出了两种即插即用的新技术:位置感知注意力缩放(position-aware attention scaling)与块级增强(patch-wise augmentation),由此形成的增强版本记为RVT。在ImageNet及六个鲁棒性基准测试上的实验结果表明,RVT在鲁棒性与泛化能力方面显著优于先前的ViT模型以及当前最先进的CNN模型。此外,RVT-S在多个鲁棒性排行榜(包括ImageNet-C与ImageNet-Sketch)中均取得了Top-1排名。相关代码将开源至 \url{https://github.com/alibaba/easyrobust}。
代码仓库
alibaba/easyrobust
官方
pytorch
GitHub 中提及
vtddggg/Robust-Vision-Transformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| domain-generalization-on-imagenet-a | RVT-Ti* | Top-1 accuracy %: 14.4 |
| domain-generalization-on-imagenet-a | RVT-S* | Top-1 accuracy %: 25.7 |
| domain-generalization-on-imagenet-a | RVT-B* | Top-1 accuracy %: 28.5 |
| domain-generalization-on-imagenet-c | RVT-Ti* | mean Corruption Error (mCE): 57.0 |
| domain-generalization-on-imagenet-c | RVT-S* | mean Corruption Error (mCE): 49.4 |
| domain-generalization-on-imagenet-c | RVT-B* | mean Corruption Error (mCE): 46.8 |
| domain-generalization-on-imagenet-r | RVT-Ti* | Top-1 Error Rate: 56.1 |
| domain-generalization-on-imagenet-r | RVT-S* | Top-1 Error Rate: 52.3 |
| domain-generalization-on-imagenet-r | RVT-B* | Top-1 Error Rate: 51.3 |
| image-classification-on-imagenet | RVT-S* | GFLOPs: 4.7 Number of params: 23.3M Top 1 Accuracy: 81.9% |
| image-classification-on-imagenet | RVT-Ti* | GFLOPs: 1.3 Number of params: 10.9M Top 1 Accuracy: 79.2% |
| image-classification-on-imagenet | RVT-B* | GFLOPs: 17.7 Number of params: 91.8M Top 1 Accuracy: 82.7% |