
摘要
大规模视觉基础模型在自然图像的视觉任务中取得了显著进展,其中视觉Transformer因其良好的可扩展性和表征能力成为主流选择。然而,针对遥感(Remote Sensing, RS)领域的大型模型尚未得到充分探索。本文采用参数量约为1亿的纯视觉Transformer架构,首次尝试构建专为遥感任务设计的大规模视觉模型,并系统研究此类大模型在遥感场景下的表现。为应对遥感图像中目标尺寸大且方向任意的挑战,我们提出一种新型的旋转变尺寸窗口注意力机制(rotated varied-size window attention),替代Transformer中的原始全局注意力机制。该方法在显著降低计算开销与内存占用的同时,通过从生成的多样化窗口中提取丰富的上下文信息,有效提升了目标的表征能力。在目标检测任务上的实验结果表明,所提模型在DOTA-V1.0数据集上达到了81.24%的mAP,优于所有现有先进方法。此外,模型在下游的分类与分割任务中也展现出与现有先进方法相当甚至更优的性能。进一步实验还验证了该模型在模型迁移过程中具备更低的计算复杂度和更高的数据效率优势。
代码仓库
vitae-transformer/remote-sensing-rvsa
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-in-aerial-images-on-dior-r | ViTAE-B + RVSA-ORCN | mAP: 71.05 |
| object-detection-in-aerial-images-on-dior-r | ViT-B + RVSA-ORCN | mAP: 70.85 |
| object-detection-in-aerial-images-on-dota-1 | ViT-B + RVSA-ORCN | mAP: 81.01% |
| object-detection-in-aerial-images-on-dota-1 | ViTAE-B + RVSA-ORCN | mAP: 81.24% |
| semantic-segmentation-on-isaid | ViTAE-B + RVSA-UperNet | mIoU: 64.49 |
| semantic-segmentation-on-isaid | ViT-B + RVSA-UperNet | mIoU: 63.85 |
| semantic-segmentation-on-isprs-potsdam | ViT-B + RVSA-UperNet | Overall Accuracy: 90.77 |
| semantic-segmentation-on-isprs-potsdam | ViTAE-B + RVSA -UperNet | Overall Accuracy: 91.22 |
| semantic-segmentation-on-loveda | ViT-B + RVSA-UperNet | Category mIoU: 51.95 |
| semantic-segmentation-on-loveda | ViTAE-B + RVSA-UperNet | Category mIoU: 52.44 |