6 个月前

摘要

尽管视觉Transformer（Vision Transformer, ViT）在计算机视觉领域取得了显著进展，但在密集预测任务中表现不佳，主要原因是其内部patch间缺乏有效的信息交互，且特征尺度多样性有限。现有大多数研究致力于设计专用的视觉Transformer架构以解决上述问题，但这类方法通常需要引入额外的预训练成本。为此，本文提出一种简洁、无需预训练且具备特征增强能力的ViT骨干网络——ViT-CoMer，该模型融合了卷积多尺度特征交互机制，能够实现CNN与Transformer之间的双向信息交互。相较于当前最先进方法，ViT-CoMer具有以下优势：（1）将空间金字塔多感受野卷积特征嵌入ViT架构中，有效缓解了ViT在局部信息交互能力不足以及单一特征表示方面的缺陷；（2）提出一种简单而高效的CNN-Transformer双向融合交互模块，可在层级特征间实现多尺度融合，显著提升模型对密集预测任务的适应能力；（3）在多种密集预测任务、不同网络框架以及多个先进预训练策略下对ViT-CoMer进行了全面评估。值得注意的是，ViT-CoMer-L在不使用额外训练数据的情况下，于COCO val2017上达到64.3%的AP，在ADE20K val上实现62.1%的mIoU，性能与当前最先进方法相当。我们期望ViT-CoMer能够成为密集预测任务中一个新颖且高效的骨干网络，推动后续相关研究的发展。代码将开源，地址为：https://github.com/Traffic-X/ViT-CoMer。

源 PDF 查看代码