3 个月前

面向方向性目标检测的空间变换解耦

面向方向性目标检测的空间变换解耦

摘要

视觉Transformer(Vision Transformers, ViTs)在计算机视觉任务中取得了显著成功。然而,其在旋转敏感场景中的潜力尚未得到充分挖掘,这一局限性可能本质上源于数据前向传播过程中缺乏空间不变性。在本研究中,我们提出了一种新颖的方法——空间变换解耦(Spatial Transform Decoupling, STD),为基于ViTs的定向目标检测提供了一种简单而高效解决方案。STD基于堆叠的ViT模块构建,通过独立的网络分支分别预测边界框的位置、尺寸和角度,以分而治之的方式有效挖掘ViTs在空间变换方面的潜力。此外,STD通过聚合基于回归参数计算得到的级联激活掩码(Cascaded Activation Maps, CAMs),逐步增强感兴趣区域(Regions of Interest, RoIs)内的特征表示,从而对自注意力机制形成有效补充。在不依赖复杂技巧的前提下,STD在多个基准数据集上取得了当前最优性能,包括DOTA-v1.0(mAP达82.24%)和HRSC2016(mAP达98.55%),充分验证了所提方法的有效性。项目源代码已开源,地址为:https://github.com/yuhongtian17/Spatial-Transform-Decoupling。

代码仓库

yuhongtian17/spatial-transform-decoupling
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
object-detection-in-aerial-images-on-dota-1STD+HiViT-B
mAP: 82.24%
object-detection-in-aerial-images-on-hrsc2016STD+ViT-B
mAP-07: 90.67
mAP-12: 98.55

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向方向性目标检测的空间变换解耦 | 论文 | HyperAI超神经