3 个月前

一张图像的价值相当于16×16个词:面向大规模图像识别的Transformer

一张图像的价值相当于16×16个词:面向大规模图像识别的Transformer

摘要

尽管Transformer架构已成为自然语言处理任务的默认标准,其在计算机视觉领域的应用仍较为有限。在视觉任务中,注意力机制通常与卷积神经网络(CNN)结合使用,或用于替代CNN的某些组件,同时保留其整体结构。本文表明,这种对CNN的依赖并非必需;仅将纯Transformer直接应用于图像块序列,即可在图像分类任务中取得优异表现。当在大规模数据上进行预训练,并迁移至多个中等规模或小型图像识别基准(如ImageNet、CIFAR-100、VTAB等)时,视觉Transformer(Vision Transformer, ViT)的表现优于当前最先进的卷积神经网络,同时训练所需计算资源显著减少。

代码仓库

YanYan0716/vision_transform
tf
GitHub 中提及
ludics/ViT-Retri
pytorch
GitHub 中提及
SupreethRao99/VisionTransformer
pytorch
GitHub 中提及
quanmario0311/ViT_PyTorch
pytorch
GitHub 中提及
haiyang-w/git
pytorch
GitHub 中提及
ruiqirichard/eegeyenet-vit
pytorch
GitHub 中提及
james77777778/keras-image-models
pytorch
GitHub 中提及
KiUngSong/Vision
pytorch
GitHub 中提及
nima1999nikkhah/ViT-Hybrid
pytorch
GitHub 中提及
timH6502/VisionTransformer-PyTorch
pytorch
GitHub 中提及
liuxingwt/CLS
pytorch
GitHub 中提及
qiaopTDUN/mae-repo
pytorch
GitHub 中提及
SHI-Labs/Compact-Transformers
pytorch
GitHub 中提及
faustomorales/vit-keras
tf
GitHub 中提及
asarigun/TransGAN
pytorch
GitHub 中提及
shahrukhx01/ocr-test
pytorch
GitHub 中提及
charchit7/Using_Transoformers
pytorch
GitHub 中提及
rwightman/pytorch-image-models
pytorch
GitHub 中提及
BaiqiangGit/15minCode
pytorch
GitHub 中提及
wangguanan/light-reid
pytorch
GitHub 中提及
jiangtaoxie/So-ViT
pytorch
GitHub 中提及
naver-ai/pflayer
pytorch
GitHub 中提及
SrinjaySarkar/ViT
pytorch
GitHub 中提及
Westlake-AI/openmixup
pytorch
GitHub 中提及
smu-ivpl/DeepfakeDetection
pytorch
GitHub 中提及
jaketae/mlp-mixer
pytorch
GitHub 中提及
conceptofmind/ViT-haiku
jax
GitHub 中提及
Julien-pour/music_classifcation
pytorch
GitHub 中提及
gnoses/ViT_examples
pytorch
GitHub 中提及
TACJu/TransFG
pytorch
GitHub 中提及
kingcong/vit
mindspore
GitHub 中提及
skchen1993/TrangFG
pytorch
GitHub 中提及
BebDong/MXNetSeg
mxnet
GitHub 中提及
KatherLab/HIA
pytorch
GitHub 中提及
facebookresearch/vissl
pytorch
GitHub 中提及
drumpt/ViT
pytorch
GitHub 中提及
google-research/vision_transformer
官方
jax
GitHub 中提及
dispink/xpt
pytorch
GitHub 中提及
kakaobrain/coyo-dataset
pytorch
GitHub 中提及
IMvision12/keras-vision-models
pytorch
GitHub 中提及
alililia/vit_base_GPU
mindspore
GitHub 中提及
sangHa0411/VIT
pytorch
GitHub 中提及
stevenwalton/scs-cct
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
04RR/SOTA-Vision
pytorch
GitHub 中提及
YousefGamal220/Vision-Transformers
pytorch
GitHub 中提及
junyongyou/triq
pytorch
GitHub 中提及
alililia/vit_base_Ascend
mindspore
GitHub 中提及
facebookresearch/hiera
pytorch
GitHub 中提及
Mind23-2/MindCode-89
mindspore
GitHub 中提及
jacobgil/vit-explain
pytorch
GitHub 中提及
ttt496/VisionTransformer
jax
GitHub 中提及
HyeonhoonLee/MAIC2021_Sleep
pytorch
GitHub 中提及
davisking/dlib-models
GitHub 中提及
gmum/dl-mo-2021
GitHub 中提及
holdfire/CLS
pytorch
GitHub 中提及
Kevinz-code/CSRA
pytorch
GitHub 中提及
Aedelon/ViT-PyTorch-Replication
pytorch
GitHub 中提及
staghado/vit.cpp
pytorch
GitHub 中提及
mahmoodlab/hipt
pytorch
GitHub 中提及
Ugenteraan/Vanilla-ViT
pytorch
GitHub 中提及
DominikBatic/EndoViT
pytorch
GitHub 中提及
tahmid0007/VisionTransformer
pytorch
GitHub 中提及
SforAiDl/vformer
pytorch
GitHub 中提及
explainingai-code/VIT-Pytorch
pytorch
GitHub 中提及
meowbutlerdev/ViT
pytorch
GitHub 中提及
nasa-impact/hls-foundation-os
pytorch
GitHub 中提及
Mind23-2/MindCode-1
paddle
GitHub 中提及
nachiket273/VisTrans
pytorch
GitHub 中提及
zpc-666/Paddle-R-Drop
paddle
GitHub 中提及
modeeric/eegvit-tcnet
pytorch
GitHub 中提及
protonx-engineering/vit
tf
GitHub 中提及
jeonsworld/ViT-pytorch
pytorch
GitHub 中提及
holdfire/FAS
pytorch
GitHub 中提及
jo1jun/Vision_Transformer
pytorch
GitHub 中提及
lukas-blecher/LaTeX-OCR
pytorch
GitHub 中提及
woctezuma/steam-CLIP
GitHub 中提及
smitheric95/MoCoViT-PyTorch
pytorch
GitHub 中提及
uygarkurt/ViT-PyTorch
pytorch
GitHub 中提及

基准测试

基准方法指标
domain-generalization-on-vizwizViT-8/B-224
Accuracy - Clean Images: 450
domain-generalization-on-vizwizViT-16/L-224
Accuracy - All Images: 49
fine-grained-image-classification-on-oxford-2ViT-B/16
Top-1 Error Rate: 6.2%
image-classification-on-cifar-10ViT-H/14
Percentage correct: 99.5
image-classification-on-cifar-10ViT-L/16
Percentage correct: 99.42
image-classification-on-flowers-102-
Accuracy: 99.68
image-classification-on-imagenetViT-L/16
Top 1 Accuracy: 87.76%
image-classification-on-imagenetViT-Large
Top 1 Accuracy: 24%
image-classification-on-imagenet-
Top 5 Accuracy: 23.72
image-classification-on-imagenetViT-H/14
Top 1 Accuracy: 88.55%
image-classification-on-objectnetViT-H/14
Top-5 Accuracy: 82.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一张图像的价值相当于16×16个词:面向大规模图像识别的Transformer | 论文 | HyperAI超神经