3 个月前

视觉Transformer的鲁棒性研究

视觉Transformer的鲁棒性研究

摘要

近期研究表明,视觉Transformer(Vision Transformers, ViTs)对各类数据扰动表现出较强的鲁棒性。尽管这一特性在一定程度上可归因于自注意力机制,但目前对其内在机理仍缺乏系统的理解。本文旨在探究自注意力机制在学习鲁棒表征中的作用。研究受视觉Transformer中新兴的视觉分组现象启发,该现象表明自注意力可能通过增强中层表征来提升模型的鲁棒性。为此,我们提出了一类全注意力网络(Fully Attentional Networks, FANs),通过引入注意力驱动的通道处理结构,进一步强化了该能力。我们在多种层级化骨干网络上对所提设计进行了全面验证。所提出的模型在ImageNet-1k上取得了87.1%的准确率,在ImageNet-C上达到35.8%的平均类别错误率(mCE),参数量为76.8M,性能达到当前最优水平。此外,我们在两个下游任务——语义分割与目标检测中也验证了FANs在准确率与鲁棒性方面的领先表现。代码已开源,地址为:https://github.com/NVlabs/FAN。

代码仓库

nvlabs/fan
官方
pytorch
GitHub 中提及
NVlabs/STL
pytorch
GitHub 中提及

基准测试

基准方法指标
domain-generalization-on-imagenet-aFAN-Hybrid-L(IN-21K, 384)
Top-1 accuracy %: 74.5
domain-generalization-on-imagenet-cFAN-L-Hybrid
Number of params: 77M
Top 1 Accuracy: 67.7
mean Corruption Error (mCE): 43.0
domain-generalization-on-imagenet-cFAN-B-Hybrid (IN-22k)
Number of params: 50M
Top 1 Accuracy: 70.5
mean Corruption Error (mCE): 41.0
domain-generalization-on-imagenet-cFAN-L-Hybrid (IN-22k)
Number of params: 77M
Top 1 Accuracy: 73.6
mean Corruption Error (mCE): 35.8
domain-generalization-on-imagenet-rFAN-Hybrid-L(IN-21K, 384))
Top-1 Error Rate: 28.9
image-classification-on-imagenetFAN-L-Hybrid++
Number of params: 76.8M
Top 1 Accuracy: 87.1%
object-detection-on-coco-minivalFAN-L-Hybrid
box AP: 55.1
semantic-segmentation-on-cityscapes-valFAN-L-Hybrid
mIoU: 82.3
semantic-segmentation-on-densepassFAN (MiT-B1)
mIoU: 42.54%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉Transformer的鲁棒性研究 | 论文 | HyperAI超神经