3 个月前

AS-MLP:一种用于视觉的轴向移位MLP架构

AS-MLP:一种用于视觉的轴向移位MLP架构

摘要

本文提出了一种轴向位移多层感知机架构(Axial Shifted MLP,简称 AS-MLP)。与 MLP-Mixer 不同,后者通过矩阵转置和单一的 token 混合 MLP 来编码全局空间特征以实现信息流动,本文更注重局部特征之间的交互。通过在特征图的通道维度上进行轴向位移操作,AS-MLP 能够从不同轴向方向获取信息流,从而有效捕捉局部依赖关系。这一设计使得我们能够仅使用纯 MLP 架构即可实现与卷积神经网络(CNN)类似的感受野范围。此外,我们还可沿用卷积神经网络的设计思想,灵活调控 AS-MLP 中模块的感受野大小和扩张率等参数。基于所提出的 AS-MLP 架构,我们的模型在 ImageNet-1K 数据集上实现了 83.3% 的 Top-1 准确率,仅需 88M 参数和 15.2 GFLOPs 的计算量。这一简洁而高效的设计在所有基于 MLP 的架构中表现最优,并在计算量略低的情况下,仍可与基于 Transformer 的架构(如 Swin Transformer)相媲美,展现出极具竞争力的性能。此外,AS-MLP 是首个成功应用于下游任务(如目标检测和语义分割)的基于 MLP 的架构。实验结果同样令人瞩目:在 COCO 验证集上,AS-MLP 达到了 51.5 mAP 的成绩;在 ADE20K 数据集上,取得了 49.5 MS mIoU 的表现,其性能与基于 Transformer 的先进方法相当。综上,AS-MLP 建立了基于 MLP 架构的强有力基线模型。代码已开源,地址为:https://github.com/svip-lab/AS-MLP。

代码仓库

liuruiyang98/Jittor-MLP
jax
GitHub 中提及
svip-lab/AS-MLP
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-densepassASMLP (MiT-B1)
mIoU: 42.05%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AS-MLP:一种用于视觉的轴向移位MLP架构 | 论文 | HyperAI超神经