3 个月前

推动普通视觉Transformer向遥感基础模型发展

推动普通视觉Transformer向遥感基础模型发展

摘要

大规模视觉基础模型在自然图像的视觉任务中取得了显著进展,其中视觉Transformer因其良好的可扩展性和表征能力成为主流选择。然而,针对遥感(Remote Sensing, RS)领域的大型模型尚未得到充分探索。本文采用参数量约为1亿的纯视觉Transformer架构,首次尝试构建专为遥感任务设计的大规模视觉模型,并系统研究此类大模型在遥感场景下的表现。为应对遥感图像中目标尺寸大且方向任意的挑战,我们提出一种新型的旋转变尺寸窗口注意力机制(rotated varied-size window attention),替代Transformer中的原始全局注意力机制。该方法在显著降低计算开销与内存占用的同时,通过从生成的多样化窗口中提取丰富的上下文信息,有效提升了目标的表征能力。在目标检测任务上的实验结果表明,所提模型在DOTA-V1.0数据集上达到了81.24%的mAP,优于所有现有先进方法。此外,模型在下游的分类与分割任务中也展现出与现有先进方法相当甚至更优的性能。进一步实验还验证了该模型在模型迁移过程中具备更低的计算复杂度和更高的数据效率优势。

代码仓库

基准测试

基准方法指标
object-detection-in-aerial-images-on-dior-rViTAE-B + RVSA-ORCN
mAP: 71.05
object-detection-in-aerial-images-on-dior-rViT-B + RVSA-ORCN
mAP: 70.85
object-detection-in-aerial-images-on-dota-1ViT-B + RVSA-ORCN
mAP: 81.01%
object-detection-in-aerial-images-on-dota-1ViTAE-B + RVSA-ORCN
mAP: 81.24%
semantic-segmentation-on-isaidViTAE-B + RVSA-UperNet
mIoU: 64.49
semantic-segmentation-on-isaidViT-B + RVSA-UperNet
mIoU: 63.85
semantic-segmentation-on-isprs-potsdamViT-B + RVSA-UperNet
Overall Accuracy: 90.77
semantic-segmentation-on-isprs-potsdamViTAE-B + RVSA -UperNet
Overall Accuracy: 91.22
semantic-segmentation-on-lovedaViT-B + RVSA-UperNet
Category mIoU: 51.95
semantic-segmentation-on-lovedaViTAE-B + RVSA-UperNet
Category mIoU: 52.44

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
推动普通视觉Transformer向遥感基础模型发展 | 论文 | HyperAI超神经