3 个月前

亿级规模的遥感图像基础模型

亿级规模的遥感图像基础模型

摘要

随着基础模型在视觉任务中展现出巨大潜力,其在下游任务前的预训练已成为关键步骤。基础模型预训练的三个核心因素分别为:预训练方法、预训练数据集规模以及模型参数量。近年来,遥感领域的研究主要聚焦于预训练方法与数据集规模,而对模型参数量的关注相对有限。本文针对这一研究空白,系统探讨了增加模型参数量对基础模型在下游任务(如旋转目标检测与语义分割)中性能的影响。我们训练了参数量分别为8600万、6.0526亿、13亿和24亿的基础模型,以验证模型性能是否随参数量增加而提升。据我们所知,这是遥感领域首个达到十亿级参数规模的基础模型。此外,本文提出了一种在遥感领域高效扩展与微调视觉Transformer的方法。为全面评估模型在下游任务中的泛化能力,我们采用DOTA v2.0和DIOR-R基准数据集进行旋转目标检测评估,同时使用Potsdam与LoveDA数据集进行语义分割测试。实验结果表明,在所有基准数据集与下游任务中,随着模型参数量的增加,基础模型的性能与数据效率均显著提升。此外,我们的模型在DIOR-R、Potsdam及LoveDA等多个数据集上均取得了当前最优(SOTA)的性能表现。

基准测试

基准方法指标
object-detection-in-aerial-images-on-dior-rViT-G12X4
mAP: 73.60
semantic-segmentation-on-isprs-potsdamViT-G12X4
Mean F1: 92.12
Overall Accuracy: 92.58
semantic-segmentation-on-lovedaViT-G12X4
Category mIoU: 54.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
亿级规模的遥感图像基础模型 | 论文 | HyperAI超神经