HyperAIHyperAI

Command Palette

Search for a command to run...

探索用于目标检测的纯视觉Transformer骨干网络

Yanghao Li Hanzi Mao Ross Girshick† Kaiming He‡

摘要

我们探讨了将简单的、非层次化的视觉变换器(Vision Transformer, ViT)作为目标检测的主干网络。这种设计使得原始的ViT架构能够在无需重新设计用于预训练的层次化主干网络的情况下,进行目标检测的微调。通过最小的适应性调整,我们的基于简单主干网络的检测器能够取得具有竞争力的结果。令人惊讶的是,我们观察到:(i) 仅从单尺度特征图构建一个简单的特征金字塔(无需常见的FPN设计)就足够了;(ii) 使用窗口注意力机制(无需移位),并辅以极少数跨窗口传播块也足够了。利用作为掩码自编码器(Masked Autoencoders, MAE)预训练的简单ViT主干网络,我们的检测器命名为ViTDet,可以与之前所有基于层次化主干网络的方法相竞争,在仅使用ImageNet-1K预训练的情况下,在COCO数据集上达到了最高61.3 AP_box的成绩。我们希望本研究能够引起对基于简单主干网络检测器研究的关注。ViTDet的代码已在Detectron2中提供。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供