3 个月前

RemoteCLIP:面向遥感的视觉语言基础模型

RemoteCLIP:面向遥感的视觉语言基础模型

摘要

通用基础模型近年来推动了人工智能领域的重大突破。在遥感领域,自监督学习(Self-Supervised Learning, SSL)与掩码图像建模(Masked Image Modeling, MIM)已被用于构建基础模型。然而,这些模型主要学习低层次视觉特征,且在微调阶段仍依赖标注数据;此外,由于缺乏语言理解能力,难以适用于图像检索与零样本(zero-shot)应用场景。为解决上述局限,本文提出RemoteCLIP——首个面向遥感领域的视觉-语言基础模型,旨在学习具有丰富语义信息的鲁棒视觉特征,并生成与文本嵌入对齐的表示,从而实现下游任务的无缝适配。针对预训练数据稀缺的问题,我们引入数据规模扩展策略,通过Box-to-Caption(B2C)与Mask-to-Box(M2B)转换机制,将异构标注数据统一转化为图像-文本配对格式。进一步融合无人机(UAV)影像数据后,所构建的预训练数据集规模较现有所有公开数据集的总和扩大了12倍。RemoteCLIP可广泛应用于多种下游任务,包括零样本图像分类、线性探测(linear probing)、k近邻分类(k-NN classification)、少样本分类、遥感图像中的图文检索以及目标计数。在16个数据集上的综合评估,包括新提出的RemoteCount基准测试(用于检验目标计数能力),结果表明,RemoteCLIP在不同模型规模下均显著优于各类基线基础模型。尤为突出的是,在RSITMD数据集上,RemoteCLIP相较于当前最优方法提升了9.14%的平均召回率;在RSICD数据集上,提升达8.92%。在零样本分类任务中,RemoteCLIP在12个下游数据集上的平均准确率最高较CLIP基线提升6.39%。项目主页:https://github.com/ChenDelong1999/RemoteCLIP

代码仓库

chendelong1999/remoteclip
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-modal-retrieval-on-rsicdRemoteCLIP
Image-to-text R@1: 18.39%
Mean Recall: 36.35%
text-to-image R@1: 14.73%
cross-modal-retrieval-on-rsitmdRemoteCLIP
Image-to-text R@1: 28.76%
Mean Recall: 50.52%
text-to-imageR@1: 23.76%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RemoteCLIP:面向遥感的视觉语言基础模型 | 论文 | HyperAI超神经