Nguyen Huu Bao LongChenyu ZhangYuzhi ShiTsubasa HirakawaTakayoshi YamashitaTohgoroh MatsuiHironobu Fujiyoshi

摘要
具有不同注意力模块的视觉Transformer在视觉任务中已展现出卓越的性能。尽管采用自适应稀疏注意力机制(如DAT)在图像分类任务中取得了优异效果,但在微调用于语义分割任务时,由可变形点选取的关键值对(key-value pairs)缺乏语义相关性。BiFormer中提出的查询感知稀疏注意力机制旨在使每个查询聚焦于top-k路由区域,然而在注意力计算过程中,所选的关键值对受到大量无关查询的干扰,导致对更重要区域的关注度被削弱。为解决上述问题,本文提出一种新型的可变形双层路由注意力模块(Deformable Bi-level Routing Attention, DBRA),该模块通过引入代理查询(agent queries)优化关键值对的选择过程,并提升注意力图中查询的可解释性。基于DBRA模块,我们进一步构建了一种新型通用视觉Transformer——可变形双层路由注意力Transformer(Deformable Bi-level Routing Attention Transformer, DeBiFormer)。DeBiFormer在多种计算机视觉任务中均经过验证,涵盖图像分类、目标检测与语义分割,充分证明了其有效性。相关代码已开源,地址为:{https://github.com/maclong01/DeBiFormer}。
代码仓库
maclong01/DeBiFormer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-imagenet | DeBiFormer-S | Top 1 Accuracy: 83.9% |
| image-classification-on-imagenet | DeBiFormer-B | Top 1 Accuracy: 84.4% |
| image-classification-on-imagenet | DeBiFormer-T | Top 1 Accuracy: 81.9% |
| object-detection-on-coco-2017 | DeBiFormer-B (IN1k pretrain, MaskRCNN 12ep) | mAP: 48.5 |
| object-detection-on-coco-2017 | DeBiFormer-S (IN1k pretrain, MaskRCNN 12ep) | mAP: 47.5 |
| object-detection-on-coco-2017 | DeBiFormer-B (IN1k pretrain, Retina) | mAP: 47.1 |
| object-detection-on-coco-2017 | DeBiFormer-S (IN1k pretrain, Retina) | mAP: 45.6 |
| semantic-segmentation-on-ade20k | DeBiFormer-B (IN1k pretrain, Upernet 160k) | Validation mIoU: 52.0 |