3 个月前

ViDT:一种高效且有效的全Transformer架构目标检测器

ViDT:一种高效且有效的全Transformer架构目标检测器

摘要

Transformer 正在重塑计算机视觉领域的格局,尤其是在目标识别任务中表现突出。检测型 Transformer(Detection Transformers)是首个完全端到端学习的目标检测系统,而视觉 Transformer(Vision Transformers)则是首个完全基于 Transformer 架构的图像分类模型。本文提出将视觉 Transformer 与检测 Transformer 相融合,构建了一个高效且性能优异的目标检测框架——ViDT(Vision and Detection Transformers)。ViDT 引入了一种重构的注意力模块,将近期提出的 Swin Transformer 扩展为一个独立的目标检测器,并配备了一个计算高效的 Transformer 解码器,该解码器能够有效利用多尺度特征,并结合多种辅助技术,在几乎不增加计算负担的前提下显著提升检测性能。在 Microsoft COCO 基准数据集上的大量实验结果表明,ViDT 在现有完全基于 Transformer 的目标检测器中实现了最佳的平均精度(AP)与延迟(latency)权衡,其在大模型下的高可扩展性使其达到了 49.2 的 AP 值。相关代码与训练好的模型将开源发布于 https://github.com/naver-ai/vidt。

代码仓库

naver-ai/vidt
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
object-detection-on-coco-2017-valViDT Swin-base
AP: 49.2
AP50: 69.4
AP75: 53.1
APL: 66.9
APM: 52.6
APS: 30.6
Param.: 0.1B
object-detection-on-coco-2017-valViDT Swin-small
AP: 47.5
AP50: 67.7
AP75: 51.4
APL: 64.8
APM: 50.7
APS: 29.2
Param.: 61M
object-detection-on-coco-2017-valViDT Swin-nano
AP: 40.4
AP50: 59.6
AP75: 43.3
APL: 55.8
APM: 42.5
APS: 23.2
Param.: 16M
object-detection-on-coco-2017-valViDT Swin-tiny
AP: 44.8
AP50: 64.5
AP75: 48.7
APL: 62.1
APM: 47.6
APS: 25.9
Param.: 38M

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ViDT:一种高效且有效的全Transformer架构目标检测器 | 论文 | HyperAI超神经