3 个月前

全局-局部信息软对齐用于跨模态遥感图像-文本检索

全局-局部信息软对齐用于跨模态遥感图像-文本检索

摘要

跨模态遥感图像-文本检索(Cross-modal Remote-Sensing Image–Text Retrieval, CMRSITR)是一项具有挑战性的任务,旨在根据文本描述检索目标遥感(Remote Sensing, RS)图像。然而,文本与遥感图像之间的模态差异带来了显著挑战。遥感图像通常包含多个目标和复杂的背景信息,因此有效实现CMRSITR需要同时挖掘全局与局部信息(Global and Local Information, GaLR)。现有方法主要关注图像的局部特征,却忽视了文本的局部特征及其与图像之间的对应关系。这些方法通常将全局与局部图像特征进行融合,并与全局文本特征对齐,但在处理复杂背景时难以消除干扰,容易忽略关键目标。为解决上述局限性,本文提出一种基于Transformer架构的新型CMRSITR框架,通过引入全局-局部信息软对齐(Global–Local Information Soft Alignment, GLISA)机制,显著提升检索性能。该框架包含一个全局图像提取模块,用于捕捉图像-文本对的全局语义特征,有效表征遥感图像中多个目标之间的相互关系。此外,我们设计了一种自适应局部信息提取(Adaptive Local Information Extraction, ALIE)模块,能够自适应地从遥感图像和文本中挖掘具有判别性的局部线索,并实现对应细粒度信息的对齐。为缓解局部特征对齐过程中可能出现的语义模糊问题,我们进一步提出局部信息软对齐(Local Information Soft-Alignment, LISA)模块,增强局部语义的一致性与匹配精度。在两个公开的CMRSITR数据集上的对比实验表明,所提方法取得了当前最优的性能,不仅显著优于传统跨模态检索方法,也超越了基于对比语言-图像预训练(Contrastive Language-Image Pretraining, CLIP)的现有方法,验证了其在复杂遥感场景下跨模态理解与匹配能力的优越性。

基准测试

基准方法指标
cross-modal-retrieval-on-rsicdGLISA
Image-to-text R@1: 20.68%
Mean Recall: 37.69%
text-to-image R@1: 14.73%
cross-modal-retrieval-on-rsitmdGLISA
Image-to-text R@1: 32.08%
Mean Recall: 50.69%
text-to-imageR@1: 23.36%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供