3 个月前

ViT-CoMer:用于密集预测的卷积多尺度特征交互视觉Transformer

ViT-CoMer:用于密集预测的卷积多尺度特征交互视觉Transformer

摘要

尽管视觉Transformer(Vision Transformer, ViT)在计算机视觉领域取得了显著进展,但在密集预测任务中表现不佳,主要原因是其内部patch间缺乏有效的信息交互,且特征尺度多样性有限。现有大多数研究致力于设计专用的视觉Transformer架构以解决上述问题,但这类方法通常需要引入额外的预训练成本。为此,本文提出一种简洁、无需预训练且具备特征增强能力的ViT骨干网络——ViT-CoMer,该模型融合了卷积多尺度特征交互机制,能够实现CNN与Transformer之间的双向信息交互。相较于当前最先进方法,ViT-CoMer具有以下优势:(1)将空间金字塔多感受野卷积特征嵌入ViT架构中,有效缓解了ViT在局部信息交互能力不足以及单一特征表示方面的缺陷;(2)提出一种简单而高效的CNN-Transformer双向融合交互模块,可在层级特征间实现多尺度融合,显著提升模型对密集预测任务的适应能力;(3)在多种密集预测任务、不同网络框架以及多个先进预训练策略下对ViT-CoMer进行了全面评估。值得注意的是,ViT-CoMer-L在不使用额外训练数据的情况下,于COCO val2017上达到64.3%的AP,在ADE20K val上实现62.1%的mIoU,性能与当前最先进方法相当。我们期望ViT-CoMer能够成为密集预测任务中一个新颖且高效的骨干网络,推动后续相关研究的发展。代码将开源,地址为:https://github.com/Traffic-X/ViT-CoMer。

基准测试

基准方法指标
instance-segmentation-on-coco-minivalViT-CoMer-L (Mask RCNN, DINOv2)
mask AP: 55.9
object-detection-on-coco-minivalViT-CoMer
Params (M): 363
box AP: 64.3
semantic-segmentation-on-ade20k-valViT-CoMer
mIoU: 62.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ViT-CoMer:用于密集预测的卷积多尺度特征交互视觉Transformer | 论文 | HyperAI超神经