3 个月前

DeBiFormer:具有可变形代理双层路由注意力机制的视觉Transformer

DeBiFormer:具有可变形代理双层路由注意力机制的视觉Transformer

摘要

具有不同注意力模块的视觉Transformer在视觉任务中已展现出卓越的性能。尽管采用自适应稀疏注意力机制(如DAT)在图像分类任务中取得了优异效果,但在微调用于语义分割任务时,由可变形点选取的关键值对(key-value pairs)缺乏语义相关性。BiFormer中提出的查询感知稀疏注意力机制旨在使每个查询聚焦于top-k路由区域,然而在注意力计算过程中,所选的关键值对受到大量无关查询的干扰,导致对更重要区域的关注度被削弱。为解决上述问题,本文提出一种新型的可变形双层路由注意力模块(Deformable Bi-level Routing Attention, DBRA),该模块通过引入代理查询(agent queries)优化关键值对的选择过程,并提升注意力图中查询的可解释性。基于DBRA模块,我们进一步构建了一种新型通用视觉Transformer——可变形双层路由注意力Transformer(Deformable Bi-level Routing Attention Transformer, DeBiFormer)。DeBiFormer在多种计算机视觉任务中均经过验证,涵盖图像分类、目标检测与语义分割,充分证明了其有效性。相关代码已开源,地址为:{https://github.com/maclong01/DeBiFormer}。

代码仓库

maclong01/DeBiFormer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-imagenetDeBiFormer-S
Top 1 Accuracy: 83.9%
image-classification-on-imagenetDeBiFormer-B
Top 1 Accuracy: 84.4%
image-classification-on-imagenetDeBiFormer-T
Top 1 Accuracy: 81.9%
object-detection-on-coco-2017DeBiFormer-B (IN1k pretrain, MaskRCNN 12ep)
mAP: 48.5
object-detection-on-coco-2017DeBiFormer-S (IN1k pretrain, MaskRCNN 12ep)
mAP: 47.5
object-detection-on-coco-2017DeBiFormer-B (IN1k pretrain, Retina)
mAP: 47.1
object-detection-on-coco-2017DeBiFormer-S (IN1k pretrain, Retina)
mAP: 45.6
semantic-segmentation-on-ade20kDeBiFormer-B (IN1k pretrain, Upernet 160k)
Validation mIoU: 52.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DeBiFormer:具有可变形代理双层路由注意力机制的视觉Transformer | 论文 | HyperAI超神经