3 个月前

面向鲁棒性视觉Transformer

Xiaofeng Mao Gege Qi Yuefeng Chen Xiaodan Li Ranjie Duan Shaokai Ye Yuan He Hui Xue

摘要

近年来，视觉Transformer（Vision Transformer, ViT）及其改进变体的进展表明，基于自注意力机制的网络在大多数视觉任务中已超越传统的卷积神经网络（Convolutional Neural Networks, CNNs）。然而，现有的ViT主要关注标准准确率与计算开销，缺乏对模型鲁棒性与泛化能力内在影响的系统性研究。本文针对ViT各组件在对抗样本、常见数据畸变以及分布偏移等场景下的鲁棒性影响，开展了系统的评估。研究发现，部分组件反而会损害模型的鲁棒性。基于此，我们通过选取并组合具有鲁棒性的组件作为构建模块，提出了一种新型视觉Transformer——鲁棒视觉Transformer（Robust Vision Transformer, RVT），其在保持优异性能的同时展现出更强的鲁棒性。为进一步提升RVT的性能，我们还提出了两种即插即用的新技术：位置感知注意力缩放（position-aware attention scaling）与块级增强（patch-wise augmentation），由此形成的增强版本记为RVT。在ImageNet及六个鲁棒性基准测试上的实验结果表明，RVT在鲁棒性与泛化能力方面显著优于先前的ViT模型以及当前最先进的CNN模型。此外，RVT-S在多个鲁棒性排行榜（包括ImageNet-C与ImageNet-Sketch）中均取得了Top-1排名。相关代码将开源至 \url{https://github.com/alibaba/easyrobust}。

代码仓库

alibaba/easyrobust

官方

pytorch

GitHub 中提及

vtddggg/Robust-Vision-Transformer

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
domain-generalization-on-imagenet-a	RVT-Ti*	Top-1 accuracy %: 14.4
domain-generalization-on-imagenet-a	RVT-S*	Top-1 accuracy %: 25.7
domain-generalization-on-imagenet-a	RVT-B*	Top-1 accuracy %: 28.5
domain-generalization-on-imagenet-c	RVT-Ti*	mean Corruption Error (mCE): 57.0
domain-generalization-on-imagenet-c	RVT-S*	mean Corruption Error (mCE): 49.4
domain-generalization-on-imagenet-c	RVT-B*	mean Corruption Error (mCE): 46.8
domain-generalization-on-imagenet-r	RVT-Ti*	Top-1 Error Rate: 56.1
domain-generalization-on-imagenet-r	RVT-S*	Top-1 Error Rate: 52.3
domain-generalization-on-imagenet-r	RVT-B*	Top-1 Error Rate: 51.3
image-classification-on-imagenet	RVT-S*	GFLOPs: 4.7 Number of params: 23.3M Top 1 Accuracy: 81.9%
image-classification-on-imagenet	RVT-Ti*	GFLOPs: 1.3 Number of params: 10.9M Top 1 Accuracy: 79.2%
image-classification-on-imagenet	RVT-B*	GFLOPs: 17.7 Number of params: 91.8M Top 1 Accuracy: 82.7%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供