4 个月前

探索用于目标检测的纯视觉Transformer骨干网络

探索用于目标检测的纯视觉Transformer骨干网络

摘要

我们探讨了将简单的、非层次化的视觉变换器(Vision Transformer, ViT)作为目标检测的主干网络。这种设计使得原始的ViT架构能够在无需重新设计用于预训练的层次化主干网络的情况下,进行目标检测的微调。通过最小的适应性调整,我们的基于简单主干网络的检测器能够取得具有竞争力的结果。令人惊讶的是,我们观察到:(i) 仅从单尺度特征图构建一个简单的特征金字塔(无需常见的FPN设计)就足够了;(ii) 使用窗口注意力机制(无需移位),并辅以极少数跨窗口传播块也足够了。利用作为掩码自编码器(Masked Autoencoders, MAE)预训练的简单ViT主干网络,我们的检测器命名为ViTDet,可以与之前所有基于层次化主干网络的方法相竞争,在仅使用ImageNet-1K预训练的情况下,在COCO数据集上达到了最高61.3 AP_box的成绩。我们希望本研究能够引起对基于简单主干网络检测器研究的关注。ViTDet的代码已在Detectron2中提供。

基准测试

基准方法指标
cross-domain-few-shot-object-detection-onViTDeT-FT
mAP: 23.4
cross-domain-few-shot-object-detection-on-1ViTDeT-FT
mAP: 25.6
cross-domain-few-shot-object-detection-on-2ViTDeT-FT
mAP: 29.4
cross-domain-few-shot-object-detection-on-3ViTDeT-FT
mAP: 6.5
cross-domain-few-shot-object-detection-on-4ViTDeT-FT
mAP: 15.8
cross-domain-few-shot-object-detection-on-neuViTDeT-FT
mAP: 15.8
instance-segmentation-on-coco-minivalViTDet, ViT-H Cascade
mask AP: 52
instance-segmentation-on-coco-minivalViTDet, ViT-H Cascade (multiscale)
mask AP: 53.1
instance-segmentation-on-lvis-v1-0-valViTDet-H
mask AP: 48.1
mask APr: 36.9
instance-segmentation-on-lvis-v1-0-valViTDet-L
mask AP: 46.0
mask APr: 34.3
object-detection-on-coco-minivalViTDet, ViT-H Cascade
box AP: 60.4
object-detection-on-coco-minivalViTDet, ViT-H Cascade (multiscale)
box AP: 61.3
object-detection-on-coco-oViTDet (ViT-H)
Effective Robustness: 7.89
object-detection-on-coco-oViTDet (ViT-H)
Average mAP: 34.3
object-detection-on-lvis-v1-0-valViTDet-L
box AP: 51.2
object-detection-on-lvis-v1-0-valViTDet-H
box AP: 53.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
探索用于目标检测的纯视觉Transformer骨干网络 | 论文 | HyperAI超神经