3 个月前

基于参数高效迁移学习的遥感图像-文本检索

基于参数高效迁移学习的遥感图像-文本检索

摘要

视觉-语言预训练(Vision-and-Language Pre-training, VLP)模型近年来受到广泛关注。通过在特定数据集上进行微调,这些模型在多种任务中均展现出显著的性能提升。然而,对VLP模型进行全量微调不仅消耗大量计算资源,还带来显著的环境影响。此外,由于遥感(Remote Sensing, RS)数据持续更新,全量微调在实际应用中往往难以实现。为应对这一挑战,本文研究了一种参数高效迁移学习(Parameter-Efficient Transfer Learning, PETL)方法,旨在高效、有效地将自然域的视觉-语言知识迁移至遥感领域,应用于图像-文本检索任务。为此,本文做出以下贡献:1)我们构建了一个新颖且复杂的PETL框架,用于遥感图像-文本检索(Remote Sensing Image-Text Retrieval, RSITR)任务,该框架包含预训练的CLIP模型、一个多模态遥感适配器(multimodal remote sensing adapter),以及一种混合多模态对比学习(Hybrid Multi-modal Contrastive, HMMC)目标函数;2)针对遥感数据中模态内相似性较高的问题,我们设计了一种简单而有效的HMMC损失函数,有效缓解了因数据特性带来的语义混淆问题;3)我们对基于PETL的遥感图像-文本检索任务进行了全面的实证研究。实验结果表明,所提出的方法具有良好的前景和巨大的实际应用潜力;4)我们在RSITR任务上对多种前沿的PETL方法进行了基准测试。所提出的模型仅包含0.16M可训练参数,相较于全量微调实现了98.9%的参数压缩,显著降低了训练成本。在检索性能上,相比传统方法提升7%–13%,并达到甚至超越全量微调的水平。本研究为遥感视觉-语言任务提供了新的思路与有价值的实践启示,推动了高效、可持续的遥感多模态学习技术的发展。

代码仓库

基准测试

基准方法指标
cross-modal-retrieval-on-rsicdPE-RSITR (MRS-Adapter)
Image-to-text R@1: 14.13%
Mean Recall: 31.12%
text-to-image R@1: 11.63%
cross-modal-retrieval-on-rsitmdPE-RSITR (MRS-Adapter)
Image-to-text R@1: 23.67%
Mean Recall: 44.47%
text-to-imageR@1: 20.10%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于参数高效迁移学习的遥感图像-文本检索 | 论文 | HyperAI超神经