6 个月前

摘要

尽管卷积神经网络（CNN）作为主干网络在计算机视觉领域取得了巨大成功，本文探讨了一种无需卷积操作、适用于多种密集预测任务的简单主干网络。与近期提出的专为图像分类设计的Transformer模型（如ViT）不同，本文提出了一种金字塔视觉Transformer（Pyramid Vision Transformer, PVT），有效克服了将Transformer迁移至各类密集预测任务所面临的挑战。相较于已有方法，PVT具备多项优势：（1）与通常输出分辨率较低且计算与内存开销较大的ViT不同，PVT能够基于图像的密集分块进行训练，从而实现高分辨率输出，这对密集预测任务至关重要；同时，通过采用渐进式下采样金字塔结构，有效降低了大尺寸特征图的计算负担。（2）PVT融合了CNN与Transformer的优势，仅通过替换原有CNN主干，即可作为无需卷积操作的统一主干网络，适用于多种视觉任务。（3）通过大量实验验证，PVT显著提升了多个下游任务的性能，包括目标检测、语义分割和实例分割等。例如，在参数量相当的情况下，RetinaNet+PVT在COCO数据集上达到40.4的平均精度（AP），相比RetinaNet+ResNet50（36.3 AP）提升了4.1个绝对AP。我们期望PVT能成为像素级预测任务中一种有价值的替代主干网络，并推动后续相关研究的发展。代码已开源，地址为：https://github.com/whai362/PVT。

源 PDF