
摘要
Transformer 正在重塑计算机视觉领域的格局,尤其是在目标识别任务中表现突出。检测型 Transformer(Detection Transformers)是首个完全端到端学习的目标检测系统,而视觉 Transformer(Vision Transformers)则是首个完全基于 Transformer 架构的图像分类模型。本文提出将视觉 Transformer 与检测 Transformer 相融合,构建了一个高效且性能优异的目标检测框架——ViDT(Vision and Detection Transformers)。ViDT 引入了一种重构的注意力模块,将近期提出的 Swin Transformer 扩展为一个独立的目标检测器,并配备了一个计算高效的 Transformer 解码器,该解码器能够有效利用多尺度特征,并结合多种辅助技术,在几乎不增加计算负担的前提下显著提升检测性能。在 Microsoft COCO 基准数据集上的大量实验结果表明,ViDT 在现有完全基于 Transformer 的目标检测器中实现了最佳的平均精度(AP)与延迟(latency)权衡,其在大模型下的高可扩展性使其达到了 49.2 的 AP 值。相关代码与训练好的模型将开源发布于 https://github.com/naver-ai/vidt。
代码仓库
naver-ai/vidt
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-coco-2017-val | ViDT Swin-base | AP: 49.2 AP50: 69.4 AP75: 53.1 APL: 66.9 APM: 52.6 APS: 30.6 Param.: 0.1B |
| object-detection-on-coco-2017-val | ViDT Swin-small | AP: 47.5 AP50: 67.7 AP75: 51.4 APL: 64.8 APM: 50.7 APS: 29.2 Param.: 61M |
| object-detection-on-coco-2017-val | ViDT Swin-nano | AP: 40.4 AP50: 59.6 AP75: 43.3 APL: 55.8 APM: 42.5 APS: 23.2 Param.: 16M |
| object-detection-on-coco-2017-val | ViDT Swin-tiny | AP: 44.8 AP50: 64.5 AP75: 48.7 APL: 62.1 APM: 47.6 APS: 25.9 Param.: 38M |