3 个月前

金字塔视觉Transformer:一种无需卷积的密集预测通用主干网络

金字塔视觉Transformer:一种无需卷积的密集预测通用主干网络

摘要

尽管卷积神经网络(CNN)作为主干网络在计算机视觉领域取得了巨大成功,本文探讨了一种无需卷积操作、适用于多种密集预测任务的简单主干网络。与近期提出的专为图像分类设计的Transformer模型(如ViT)不同,本文提出了一种金字塔视觉Transformer(Pyramid Vision Transformer, PVT),有效克服了将Transformer迁移至各类密集预测任务所面临的挑战。相较于已有方法,PVT具备多项优势:(1)与通常输出分辨率较低且计算与内存开销较大的ViT不同,PVT能够基于图像的密集分块进行训练,从而实现高分辨率输出,这对密集预测任务至关重要;同时,通过采用渐进式下采样金字塔结构,有效降低了大尺寸特征图的计算负担。(2)PVT融合了CNN与Transformer的优势,仅通过替换原有CNN主干,即可作为无需卷积操作的统一主干网络,适用于多种视觉任务。(3)通过大量实验验证,PVT显著提升了多个下游任务的性能,包括目标检测、语义分割和实例分割等。例如,在参数量相当的情况下,RetinaNet+PVT在COCO数据集上达到40.4的平均精度(AP),相比RetinaNet+ResNet50(36.3 AP)提升了4.1个绝对AP。我们期望PVT能成为像素级预测任务中一种有价值的替代主干网络,并推动后续相关研究的发展。代码已开源,地址为:https://github.com/whai362/PVT。

代码仓库

xiaohu2015/pvt_detectron2
pytorch
GitHub 中提及
open-mmlab/mmpose
pytorch
GitHub 中提及
microsoft/vision-longformer
pytorch
GitHub 中提及
DarshanDeshpande/jax-models
jax
GitHub 中提及
hustvl/sparseinst
pytorch
GitHub 中提及
whai362/PVT
官方
pytorch
GitHub 中提及
SforAiDl/vformer
pytorch
GitHub 中提及

基准测试

基准方法指标
object-detection-on-coco-minivalPVT-Large (RetinaNet 3x,MS)
AP50: 63.6
AP75: 46.1
APL: 59.5
APM: 46.0
APS: 26.1
box AP: 43.4
object-detection-on-coco-minivalPVT-Large (RetinaNet 1x)
AP50: 63.7
AP75: 45.4
APL: 58.4
APM: 46.0
APS: 25.8
box AP: 42.6
semantic-segmentation-on-densepassPVT (Tiny, FPN)
mIoU: 31.20%
semantic-segmentation-on-synpassPVT
mIoU: 32.68%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
金字塔视觉Transformer:一种无需卷积的密集预测通用主干网络 | 论文 | HyperAI超神经