3 个月前

关于视觉Transformer,每个人都应了解的三件事

关于视觉Transformer,每个人都应了解的三件事

摘要

在自然语言处理领域取得初步成功之后,Transformer架构迅速在计算机视觉领域获得广泛应用,为图像分类、目标检测、图像分割以及视频分析等任务带来了当前最优的性能表现。本文基于简单且易于实现的视觉Transformer变体,提出三点重要见解:(1)视觉Transformer中的残差层通常按顺序处理,但可在一定程度上实现并行处理,而不会明显影响模型精度;(2)仅需微调注意力层的权重,即可有效将视觉Transformer适配至更高分辨率输入及其他分类任务,该方法显著降低计算开销,减少微调阶段的峰值内存占用,并支持在不同任务间共享大部分模型参数;(3)在Patch预处理阶段引入基于MLP的模块,可提升基于Patch掩码的类似BERT的自监督训练效果。我们利用ImageNet-1k数据集评估了上述设计选择的影响,并在ImageNet-v2测试集上验证了结论的可靠性。此外,通过在六个较小的数据集上进行迁移性能测试,进一步确认了所提方法的有效性。

基准测试

基准方法指标
fine-grained-image-classification-on-stanfordViT-L (attn finetune)
Accuracy: 93.8%
image-classification-on-cifar-10ViT-B (attn fine-tune)
Percentage correct: 99.3
image-classification-on-cifar-100ViT-L (attn fine-tune)
Percentage correct: 93.0
image-classification-on-flowers-102ViT-B (attn finetune)
Accuracy: 98.5
image-classification-on-imagenetViT-B (hMLP + BeiT)
Top 1 Accuracy: 83.4%
image-classification-on-imagenetViT-L@384 (attn finetune)
Top 1 Accuracy: 85.5%
image-classification-on-imagenetViT-B-18x2
Top 1 Accuracy: 84.1%
image-classification-on-imagenetViT-B-36x1
Top 1 Accuracy: 84.1%
image-classification-on-imagenetViT-S-24x2
Top 1 Accuracy: 82.6%
image-classification-on-imagenetViT-B@384 (attn finetune)
Top 1 Accuracy: 84.3%
image-classification-on-imagenetViT-S-48x1
Top 1 Accuracy: 82.3%
image-classification-on-imagenet-v2ViT-B-36x1
Top 1 Accuracy: 73.9
image-classification-on-inaturalist-2018ViT-L (attn finetune)
Top-1 Accuracy: 75.3%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
关于视觉Transformer,每个人都应了解的三件事 | 论文 | HyperAI超神经