
摘要
在近期的计算机视觉研究中,视觉Transformer(Vision Transformer, ViT)的出现迅速推动了各类网络架构设计的革新:ViT通过引入自然语言处理中广泛使用的自注意力机制,实现了当时最先进的图像分类性能;而MLP-Mixer则仅依靠简单的多层感知机(MLP)便取得了具有竞争力的成果。与此形成对比的是,多项研究指出,经过精心设计的传统卷积神经网络(CNN)同样可以在不依赖上述新型架构思想的前提下,达到与ViT相媲美的先进性能。在此背景下,学界对适用于计算机视觉任务的归纳偏置(inductive bias)问题日益关注。在此背景下,我们提出Sequencer——一种新颖且具备竞争力的ViT替代架构,为上述问题提供了新的视角。与ViT不同,Sequencer通过长短期记忆网络(LSTM)建模长程依赖关系,而非依赖自注意力机制。此外,我们还提出了一种二维版本的Sequencer模块,将单个LSTM分解为垂直方向和水平方向的两个LSTM,以进一步提升性能。尽管结构设计简洁,多项实验表明,Sequencer表现出令人印象深刻的性能:Sequencer2D-L模型仅包含5400万参数,在ImageNet-1K数据集上即实现了84.6%的Top-1准确率。不仅如此,我们还验证了该模型具备良好的迁移能力,以及在双倍分辨率区间内出色的分辨率自适应性。
代码仓库
rwightman/pytorch-image-models
官方
pytorch
GitHub 中提及
liuruiyang98/Jittor-MLP
jax
GitHub 中提及
timeseriesAI/tsai
pytorch
GitHub 中提及
okojoalg/sequencer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| domain-generalization-on-imagenet-a | Sequencer2D-L | Top-1 accuracy %: 35.5 |
| domain-generalization-on-imagenet-c | Sequencer2D-L | mean Corruption Error (mCE): 48.9 |
| domain-generalization-on-imagenet-r | Sequencer2D-L | Top-1 Error Rate: 51.9 |
| domain-generalization-on-imagenet-sketch | Sequencer2D-L | Top-1 accuracy: 35.8 |
| image-classification-on-imagenet | Sequencer2D-S | GFLOPs: 8.4 Number of params: 28M Top 1 Accuracy: 82.3% |
| image-classification-on-imagenet | Sequencer2D-L | GFLOPs: 16.6 Number of params: 54M Top 1 Accuracy: 83.4% |
| image-classification-on-imagenet | Sequencer2D-M | GFLOPs: 11.1 Number of params: 38M Top 1 Accuracy: 82.8% |
| image-classification-on-imagenet | Sequencer2D-L↑392 | GFLOPs: 50.7 Number of params: 54M Top 1 Accuracy: 84.6% |
| image-classification-on-imagenet-real | Sequencer2D-L | Accuracy: 87.9 |
| image-classification-on-imagenet-v2 | Sequencer2D-L | Top 1 Accuracy: 73.4 |