
摘要
基于掩码图像建模的自监督学习方法,如掩码自编码器(Masked Autoencoder, MAE),在遥感领域预训练视觉Transformer模型方面引起了广泛关注。然而,MAE往往过度关注像素级细节,限制了模型在语义理解方面的能力,尤其是在噪声较多的合成孔径雷达(SAR)图像上表现尤为明显。本文探索了将光谱与空间遥感图像特征作为改进的MAE重建目标。我们首先对多种图像特征的重建性能进行了系统研究,结果表明,这些特征的重建效果均不低于甚至优于原始像素。基于上述发现,本文提出一种特征引导的掩码自编码器(Feature Guided Masked Autoencoder, FG-MAE):针对多光谱图像,重建方向梯度直方图(Histograms of Oriented Gradients, HOG)与归一化差异指数(Normalized Difference Indices, NDI)的组合;针对SAR图像,则仅重建HOG特征。在三个下游任务上的实验结果表明,FG-MAE显著提升了模型性能,尤其在SAR图像上表现突出。此外,本文还验证了FG-MAE具备良好的可扩展性,并首次发布了面向中等分辨率SAR与多光谱图像的预训练视觉Transformer模型系列。
代码仓库
zhu-xlab/fgmae
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-eurosat-sar | FG-MAE (ViT-S/16) | Overall Accuracy: 85.9 |
| image-classification-on-eurosat-sar | ViT-S/16 | Overall Accuracy: 78.4 |
| image-classification-on-eurosat-sar | MAE (ViT-S/16) | Overall Accuracy: 81.0 |
| multi-label-image-classification-on-2 | FG-MAE (ViT-S/16) | F1 Score: 80.8 mAP (micro): 89.3 |
| multi-label-image-classification-on-2 | MAE (ViT-S/16) | F1 Score: 79.9 mAP (micro): 88.6 |
| multi-label-image-classification-on-2 | ViT-S/16 | F1 Score: 78.9 mAP (micro): 87.8 |
| multi-label-image-classification-on-3 | MAE (ViT-S/16) | mAP (micro): 81.3 |
| multi-label-image-classification-on-3 | ViT-S/16 | mAP (micro): 79.5 |
| multi-label-image-classification-on-3 | FG-MAE (ViT-S/16) | mAP (micro): 82.7 |