3 个月前

MLP-Mixer:一种面向视觉任务的全MLP架构

MLP-Mixer:一种面向视觉任务的全MLP架构

摘要

卷积神经网络(CNNs)是计算机视觉领域的主流模型。近年来,基于注意力机制的网络结构,如视觉Transformer(Vision Transformer),也逐渐受到广泛关注。本文表明,尽管卷积操作和注意力机制均能实现优异性能,但二者并非必要条件。我们提出了一种完全基于多层感知机(MLPs)的全新架构——MLP-Mixer。该架构包含两种类型的层:一种是对图像块(image patches)独立应用多层感知机,实现“通道间特征混合”(即对每个位置的特征进行混合);另一种则在图像块之间应用多层感知机,实现“空间信息混合”(即对空间维度进行混合)。在大规模数据集上训练,或结合现代正则化方法时,MLP-Mixer在图像分类基准任务上取得了具有竞争力的性能表现,其预训练与推理开销与当前最先进模型相当。我们期望这些结果能够激发学术界在传统CNN和Transformer之外的更多探索与创新。

代码仓库

bangoc123/mlp-mixer
tf
GitHub 中提及
KiUngSong/Vision
pytorch
GitHub 中提及
jeonsworld/MLP-Mixer-Pytorch
pytorch
GitHub 中提及
rwightman/pytorch-image-models
pytorch
GitHub 中提及
asarigun/MixerGANsformer
pytorch
GitHub 中提及
lucidrains/mlp-mixer-pytorch
pytorch
GitHub 中提及
jaketae/mlp-mixer
pytorch
GitHub 中提及
liuruiyang98/Jittor-MLP
jax
GitHub 中提及
luutn2002/mixer_test
pytorch
GitHub 中提及
google-research/vision_transformer
官方
jax
GitHub 中提及
IMvision12/keras-vision-models
pytorch
GitHub 中提及
sradc/nd-mlp-mixer
tf
GitHub 中提及
rishikksh20/MLP-Mixer-pytorch
pytorch
GitHub 中提及
04RR/SOTA-Vision
pytorch
GitHub 中提及
MiuGod0126/Mlp-Mixer-Paddle
paddle
GitHub 中提及
lavish619/MLP-Mixer-PyTorch
pytorch
GitHub 中提及
omihub777/mlp-mixer-cifar
pytorch
GitHub 中提及
ttt496/VisionTransformer
jax
GitHub 中提及
DarshanDeshpande/jax-models
jax
GitHub 中提及
Oguzhanercan/MLP-Mixer
pytorch
GitHub 中提及
engichang1467/kan-mixer
pytorch
GitHub 中提及
isaaccorley/mlp-mixer-pytorch
pytorch
GitHub 中提及
xmu-xiaoma666/MLP-Mixer-pytorch
pytorch
GitHub 中提及
leaderj1001/Bag-of-MLP
pytorch
GitHub 中提及
Nguyendat-bit/MLP-Mixer
tf
GitHub 中提及
himanshu-dutta/MLPMixer-pytorch
pytorch
GitHub 中提及
mli-lab/imaging_mlps
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-imagenetViT-L/16 Dosovitskiy et al. (2021)
Top 1 Accuracy: 85.3%
image-classification-on-imagenetMixer-H/14 (JFT-300M pre-train)
Hardware Burden:
Operations per network pass:
Top 1 Accuracy: 87.94%
image-classification-on-imagenetMixer-B/16
Number of params: 46M
Top 1 Accuracy: 76.44%
image-classification-on-imagenet-realMixer-H/14 (JFT-300M pre-train)
Accuracy: 87.86%
Params: 409M
image-classification-on-imagenet-realMixer-H/14- 448 (JFT-300M pre-train)
Accuracy: 90.18%
Params: 409M
image-classification-on-omnibenchmarkMLP-Mixer
Average Top-1 Accuracy: 32.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MLP-Mixer:一种面向视觉任务的全MLP架构 | 论文 | HyperAI超神经