6 个月前

摘要

本文提出了一种类似多层感知机（MLP）的简洁架构——CycleMLP，其可作为视觉识别与密集预测任务的通用主干网络。相较于当前主流的MLP架构（如MLP-Mixer、ResMLP和gMLP），这些架构的结构与图像尺寸紧密相关，因而难以应用于目标检测与图像分割等任务，CycleMLP具备两大优势：（1）能够处理多种尺寸的输入图像；（2）通过引入局部窗口机制，实现了计算复杂度与图像尺寸呈线性关系，而传统MLP由于存在全空间连接，其计算复杂度为 $O(N^2)$ 。基于此，我们构建了一系列模型，其性能超越了现有各类MLP模型，甚至在参数量和浮点运算量（FLOPs）更少的情况下，优于当前先进的基于Transformer的模型（如Swin Transformer）。本工作显著拓展了类MLP模型的应用范围，使其成为密集预测任务中具有高度通用性的主干网络。CycleMLP在目标检测、实例分割和语义分割任务上均取得了具有竞争力的性能表现。特别地，在ADE20K数据集上，CycleMLP-Tiny模型以更低的FLOPs实现了比Swin-Tiny高出1.3%的mIoU指标。此外，CycleMLP在ImageNet-C数据集上还展现出优异的零样本鲁棒性。代码已开源，地址为：https://github.com/ShoufaChen/CycleMLP。