8 个月前

计算机视觉

Yanghao Li Hanzi Mao Ross Girshick† Kaiming He‡

摘要

我们探讨了将简单的、非层次化的视觉变换器（Vision Transformer, ViT）作为目标检测的主干网络。这种设计使得原始的ViT架构能够在无需重新设计用于预训练的层次化主干网络的情况下，进行目标检测的微调。通过最小的适应性调整，我们的基于简单主干网络的检测器能够取得具有竞争力的结果。令人惊讶的是，我们观察到：(i) 仅从单尺度特征图构建一个简单的特征金字塔（无需常见的FPN设计）就足够了；(ii) 使用窗口注意力机制（无需移位），并辅以极少数跨窗口传播块也足够了。利用作为掩码自编码器（Masked Autoencoders, MAE）预训练的简单ViT主干网络，我们的检测器命名为ViTDet，可以与之前所有基于层次化主干网络的方法相竞争，在仅使用ImageNet-1K预训练的情况下，在COCO数据集上达到了最高61.3 AP_box的成绩。我们希望本研究能够引起对基于简单主干网络检测器研究的关注。ViTDet的代码已在Detectron2中提供。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Yanghao Li Hanzi Mao Ross Girshick† Kaiming He‡

摘要

我们探讨了将简单的、非层次化的视觉变换器（Vision Transformer, ViT）作为目标检测的主干网络。这种设计使得原始的ViT架构能够在无需重新设计用于预训练的层次化主干网络的情况下，进行目标检测的微调。通过最小的适应性调整，我们的基于简单主干网络的检测器能够取得具有竞争力的结果。令人惊讶的是，我们观察到：(i) 仅从单尺度特征图构建一个简单的特征金字塔（无需常见的FPN设计）就足够了；(ii) 使用窗口注意力机制（无需移位），并辅以极少数跨窗口传播块也足够了。利用作为掩码自编码器（Masked Autoencoders, MAE）预训练的简单ViT主干网络，我们的检测器命名为ViTDet，可以与之前所有基于层次化主干网络的方法相竞争，在仅使用ImageNet-1K预训练的情况下，在COCO数据集上达到了最高61.3 AP_box的成绩。我们希望本研究能够引起对基于简单主干网络检测器研究的关注。ViTDet的代码已在Detectron2中提供。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

探索用于目标检测的纯视觉Transformer骨干网络 | 论文 | HyperAI超神经