3 个月前

探索一种细粒度多尺度方法用于跨模态遥感图像检索

探索一种细粒度多尺度方法用于跨模态遥感图像检索

摘要

遥感(Remote Sensing, RS)跨模态文本-图像检索因其输入灵活、查询高效等优势,近年来受到广泛关注。然而,传统方法往往忽视了遥感图像中目标多尺度分布与冗余性强的特点,导致检索精度下降。为应对遥感多模态检索任务中目标尺度差异大与特征冗余的问题,本文提出一种新型的非对称多模态特征匹配网络(Asymmetric Multimodal Feature Matching Network, AMFMN)。该模型能够适应多尺度特征输入,支持多源信息检索,并可动态过滤冗余特征。AMFMN引入多尺度视觉自注意力(Multi-scale Visual Self-Attention, MVSA)模块,有效提取遥感图像中的显著特征,并利用视觉特征引导文本表示学习。此外,针对遥感图像中同类样本间相似性过强所引发的正样本模糊问题,本文提出一种基于样本对先验相似度的动态可变边距三元组损失函数(Dynamic Variable Margin Triplet Loss),以增强模型判别能力。最后,与传统遥感图像-文本数据集普遍存在的文本描述粗粒度、类内相似度高等问题不同,本文构建了一个更细粒度、更具挑战性的遥感图像-文本匹配数据集——RSITMD(Remote Sensing Image-Text Match Dataset),支持通过关键词、句子以及二者联合方式进行遥感图像检索。在四个公开遥感文本-图像数据集上的实验结果表明,所提出的AMFMN模型在跨模态遥感文本-图像检索任务中均取得了当前最优性能,显著优于现有方法。

代码仓库

xiaoyuan1996/AMFMN
官方
pytorch

基准测试

基准方法指标
cross-modal-retrieval-on-rsicdAMFMN
Image-to-text R@1: 5.21%
Mean Recall: 15.53%
text-to-image R@1: 4.08%
cross-modal-retrieval-on-rsitmdAMFMN
Image-to-text R@1: 10.63%
Mean Recall: 29.72%
text-to-imageR@1: 11.51%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
探索一种细粒度多尺度方法用于跨模态遥感图像检索 | 论文 | HyperAI超神经