3 个月前

MetaFormer 才是视觉任务真正所需

MetaFormer 才是视觉任务真正所需

摘要

Transformer 在计算机视觉任务中展现出巨大潜力。一种普遍观点认为,其基于注意力机制的 token 混合模块是模型性能优异的关键所在。然而,近期研究发现,Transformer 中的注意力模块可被空间 MLP(多层感知机)替代,而模型依然能保持良好性能。基于这一观察,我们提出假设:Transformer 的整体架构本身,而非具体的 token 混合模块,才是决定模型性能的核心因素。为验证该假设,我们刻意将 Transformer 中的注意力模块替换为一种极为简单的空间池化操作,仅实现基础的 token 混合。令人惊讶的是,由此衍生出的模型——称为 PoolFormer——在多个计算机视觉任务上均取得了具有竞争力的性能表现。例如,在 ImageNet-1K 数据集上,PoolFormer 达到 82.1% 的 top-1 准确率,相比经过精心调优的 Vision Transformer 和 MLP 类基线模型 DeiT-B 与 ResMLP-B24,分别提升了 0.3% 和 1.1% 的准确率,同时参数量减少 35% 和 52%,计算量(MACs)降低 50% 和 62%。PoolFormer 的出色表现验证了我们的核心假设,并促使我们提出“MetaFormer”这一新概念——即从 Transformer 中抽象出的通用架构范式,不再限定具体的 token 混合模块。基于大量实验,我们认为 MetaFormer 是近年来 Transformer 及 MLP 类模型在视觉任务中取得优异表现的关键所在。本研究呼吁未来的研究应更多聚焦于改进 MetaFormer 本身,而非过度关注 token 混合模块的设计。此外,我们提出的 PoolFormer 可作为未来 MetaFormer 架构设计的基准起点。相关代码已开源,地址为:https://github.com/sail-sg/poolformer。

基准测试

基准方法指标
image-classification-on-imagenetMetaFormer PoolFormer-M48
GFLOPs: 23.2
Number of params: 73M
Top 1 Accuracy: 82.5%
object-detection-on-coco-minivalPoolFormer-S36 (Mask R-CNN)
AP50: 63.1
AP75: 44.8
box AP: 41.0
semantic-segmentation-on-ade20kPoolFormer-M48
Validation mIoU: 42.7
semantic-segmentation-on-densepassPoolFormer (MiT-B1)
mIoU: 43.18%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MetaFormer 才是视觉任务真正所需 | 论文 | HyperAI超神经