
摘要
利用大规模图像-文本配对数据进行预训练的视觉-语言模型(Vision-Language Models, VLMs)在图像与文本关联能力方面展现出前所未有的性能,在各类下游任务中均取得了显著成果。然而,一个关键挑战是如何有效利用现有在通用物体上训练的大规模预训练VLM,实现面向特定领域的迁移,以完成与特定领域相关的下游任务。针对这一问题,本文提出了一种新型框架,包含领域预训练视觉-语言模型(Domain pre-trained Vision-Language Model, DVLM),旨在弥合通用视觉-语言模型(General Vision-Language Model, GVLM)与特定领域下游任务之间的鸿沟。此外,本文构建了一个遥感(Remote Sensing, RS)领域的图像-文本配对数据集——RS5M,该数据集包含500万张遥感图像及其对应的英文描述。该数据集通过筛选公开可获取的图像-文本配对数据集,并结合预训练VLM对仅含标签的遥感图像数据集进行自动标注而生成,是首个大规模的遥感图像-文本配对数据集。在此基础上,我们对CLIP模型进行了微调,并在RS5M数据集上尝试了多种参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法,以实现DVLM的构建。实验结果表明,所提出的RS5M数据集在多种任务中均表现出高度有效性,所提出的GeoRSCLIP模型在零样本分类(Zero-shot Classification, ZSC)任务上相较基线模型或先前最先进模型提升了3%~20%,在遥感跨模态文本-图像检索(Remote Sensing Cross-Modal Text-Image Retrieval, RSCTIR)任务上提升了3%~6%,在语义定位(Semantic Localization, SeLo)任务上提升了4%~5%。相关数据集与模型已开源,详见:\url{https://github.com/om-ai-lab/RS5M}。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-on-rsicd | GeoRSCLIP-FT | Image-to-text R@1: 21.13% Mean Recall: 38.87% text-to-image R@1: 15.59% |
| cross-modal-retrieval-on-rsitmd | GeoRSCLIP-FT | Image-to-text R@1: 32.30% Mean Recall: 51.81% text-to-imageR@1: 25.04% |
| image-to-text-retrieval-on-rsicd | GeoRSCLIP-FT | Image to Text Recall@1: 22.14% |
| text-retrieval-on-rsicd | GeoRSCLIP-FT | Recall@1: 15.59% |