Ilya TolstikhinNeil HoulsbyAlexander KolesnikovLucas BeyerXiaohua ZhaiThomas UnterthinerJessica YungAndreas SteinerDaniel KeysersJakob UszkoreitMario LucicAlexey Dosovitskiy

摘要
卷积神经网络(CNNs)是计算机视觉领域的主流模型。近年来,基于注意力机制的网络结构,如视觉Transformer(Vision Transformer),也逐渐受到广泛关注。本文表明,尽管卷积操作和注意力机制均能实现优异性能,但二者并非必要条件。我们提出了一种完全基于多层感知机(MLPs)的全新架构——MLP-Mixer。该架构包含两种类型的层:一种是对图像块(image patches)独立应用多层感知机,实现“通道间特征混合”(即对每个位置的特征进行混合);另一种则在图像块之间应用多层感知机,实现“空间信息混合”(即对空间维度进行混合)。在大规模数据集上训练,或结合现代正则化方法时,MLP-Mixer在图像分类基准任务上取得了具有竞争力的性能表现,其预训练与推理开销与当前最先进模型相当。我们期望这些结果能够激发学术界在传统CNN和Transformer之外的更多探索与创新。
代码仓库
ericleixd/mlpMixer-MindSpore
mindspore
bangoc123/mlp-mixer
tf
GitHub 中提及
KiUngSong/Vision
pytorch
GitHub 中提及
jm12138/MLP-Mixer-Paddle
paddle
jeonsworld/MLP-Mixer-Pytorch
pytorch
GitHub 中提及
PaddlePaddle/PASSL
paddle
rwightman/pytorch-image-models
pytorch
GitHub 中提及
asarigun/MixerGANsformer
pytorch
GitHub 中提及
lucidrains/mlp-mixer-pytorch
pytorch
GitHub 中提及
sayakpaul/MLP-Mixer-CIFAR10
GitHub 中提及
jaketae/mlp-mixer
pytorch
GitHub 中提及
liuruiyang98/Jittor-MLP
jax
GitHub 中提及
luutn2002/mixer_test
pytorch
GitHub 中提及
google-research/vision_transformer
官方
jax
GitHub 中提及
martinsbruveris/tensorflow-image-models
tf
GitHub 中提及
IMvision12/keras-vision-models
pytorch
GitHub 中提及
sradc/nd-mlp-mixer
tf
GitHub 中提及
rishikksh20/MLP-Mixer-pytorch
pytorch
GitHub 中提及
xuwkk/task_aware_machine_unlearning
pytorch
GitHub 中提及
04RR/SOTA-Vision
pytorch
GitHub 中提及
yangyucheng000/mlpMixer
mindspore
MiuGod0126/Mlp-Mixer-Paddle
paddle
GitHub 中提及
lavish619/MLP-Mixer-PyTorch
pytorch
GitHub 中提及
omihub777/mlp-mixer-cifar
pytorch
GitHub 中提及
Benjamin-Etheredge/mlp-mixer-keras
tf
GitHub 中提及
ttt496/VisionTransformer
jax
GitHub 中提及
imad08/MLP-Mixer
pytorch
DarshanDeshpande/jax-models
jax
GitHub 中提及
Oguzhanercan/MLP-Mixer
pytorch
GitHub 中提及
Mayurji/Image-Classification-PyTorch
pytorch
GitHub 中提及
engichang1467/kan-mixer
pytorch
GitHub 中提及
engichang1467/MLP-Mixer-Reimplementation
pytorch
GitHub 中提及
isaaccorley/mlp-mixer-pytorch
pytorch
GitHub 中提及
xmu-xiaoma666/MLP-Mixer-pytorch
pytorch
GitHub 中提及
xmu-xiaoma666/External-Attention-pytorch
pytorch
GitHub 中提及
YeongHyeon/MLP-Mixer-PyTorch
pytorch
leaderj1001/Bag-of-MLP
pytorch
GitHub 中提及
Nguyendat-bit/MLP-Mixer
tf
GitHub 中提及
himanshu-dutta/MLPMixer-pytorch
pytorch
GitHub 中提及
mli-lab/imaging_mlps
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| image-classification-on-imagenet | ViT-L/16 Dosovitskiy et al. (2021) | Top 1 Accuracy: 85.3% | 
| image-classification-on-imagenet | Mixer-H/14 (JFT-300M pre-train) | Hardware Burden:  Operations per network pass:  Top 1 Accuracy: 87.94% | 
| image-classification-on-imagenet | Mixer-B/16 | Number of params: 46M Top 1 Accuracy: 76.44% | 
| image-classification-on-imagenet-real | Mixer-H/14 (JFT-300M pre-train) | Accuracy: 87.86% Params: 409M | 
| image-classification-on-imagenet-real | Mixer-H/14- 448 (JFT-300M pre-train) | Accuracy: 90.18% Params: 409M | 
| image-classification-on-omnibenchmark | MLP-Mixer | Average Top-1 Accuracy: 32.2 |