6 个月前

摘要

视觉识别领域的“20年代”始于视觉Transformer（Vision Transformers, ViTs）的提出，该模型迅速取代了传统卷积神经网络（ConvNets），成为图像分类任务的最先进方法。然而，原始的ViT在应用于目标检测、语义分割等通用计算机视觉任务时面临诸多挑战。正是层次化Transformer（如Swin Transformer）重新引入了卷积神经网络中的一些先验知识，使Transformer在实际应用中具备了作为通用视觉主干网络的可行性，并在多种视觉任务上展现出卓越性能。然而，这类混合方法的有效性在很大程度上仍归功于Transformer本身的内在优势，而非卷积操作所固有的归纳偏置。在本工作中，我们重新审视了模型设计空间，探索纯卷积网络（pure ConvNet）所能达到的极限。我们逐步将标准的ResNet“现代化”，向视觉Transformer的设计理念靠拢，并在此过程中发现若干关键组件，这些组件对性能差异起到了决定性作用。基于这一探索，我们提出了一类全新的纯卷积网络模型，命名为ConvNeXt。该系列模型完全由标准卷积模块构建而成，在准确率和可扩展性方面与Transformer模型相媲美：在ImageNet上达到87.8%的Top-1准确率，并在COCO目标检测和ADE20K语义分割任务上超越Swin Transformer，同时保持了标准卷积网络所特有的简洁性与高效性。

源 PDF