3 个月前

序列生成器:用于图像分类的深度LSTM

序列生成器:用于图像分类的深度LSTM

摘要

在近期的计算机视觉研究中,视觉Transformer(Vision Transformer, ViT)的出现迅速推动了各类网络架构设计的革新:ViT通过引入自然语言处理中广泛使用的自注意力机制,实现了当时最先进的图像分类性能;而MLP-Mixer则仅依靠简单的多层感知机(MLP)便取得了具有竞争力的成果。与此形成对比的是,多项研究指出,经过精心设计的传统卷积神经网络(CNN)同样可以在不依赖上述新型架构思想的前提下,达到与ViT相媲美的先进性能。在此背景下,学界对适用于计算机视觉任务的归纳偏置(inductive bias)问题日益关注。在此背景下,我们提出Sequencer——一种新颖且具备竞争力的ViT替代架构,为上述问题提供了新的视角。与ViT不同,Sequencer通过长短期记忆网络(LSTM)建模长程依赖关系,而非依赖自注意力机制。此外,我们还提出了一种二维版本的Sequencer模块,将单个LSTM分解为垂直方向和水平方向的两个LSTM,以进一步提升性能。尽管结构设计简洁,多项实验表明,Sequencer表现出令人印象深刻的性能:Sequencer2D-L模型仅包含5400万参数,在ImageNet-1K数据集上即实现了84.6%的Top-1准确率。不仅如此,我们还验证了该模型具备良好的迁移能力,以及在双倍分辨率区间内出色的分辨率自适应性。

代码仓库

rwightman/pytorch-image-models
官方
pytorch
GitHub 中提及
liuruiyang98/Jittor-MLP
jax
GitHub 中提及
timeseriesAI/tsai
pytorch
GitHub 中提及
okojoalg/sequencer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
domain-generalization-on-imagenet-aSequencer2D-L
Top-1 accuracy %: 35.5
domain-generalization-on-imagenet-cSequencer2D-L
mean Corruption Error (mCE): 48.9
domain-generalization-on-imagenet-rSequencer2D-L
Top-1 Error Rate: 51.9
domain-generalization-on-imagenet-sketchSequencer2D-L
Top-1 accuracy: 35.8
image-classification-on-imagenetSequencer2D-S
GFLOPs: 8.4
Number of params: 28M
Top 1 Accuracy: 82.3%
image-classification-on-imagenetSequencer2D-L
GFLOPs: 16.6
Number of params: 54M
Top 1 Accuracy: 83.4%
image-classification-on-imagenetSequencer2D-M
GFLOPs: 11.1
Number of params: 38M
Top 1 Accuracy: 82.8%
image-classification-on-imagenetSequencer2D-L↑392
GFLOPs: 50.7
Number of params: 54M
Top 1 Accuracy: 84.6%
image-classification-on-imagenet-realSequencer2D-L
Accuracy: 87.9
image-classification-on-imagenet-v2Sequencer2D-L
Top 1 Accuracy: 73.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
序列生成器:用于图像分类的深度LSTM | 论文 | HyperAI超神经