3 个月前

面向遥感图像-文本检索的先验指令表示框架

面向遥感图像-文本检索的先验指令表示框架

摘要

本文提出了一种先验指令表征框架(Prior Instruction Representation, PIR),用于遥感图像-文本检索任务,旨在解决遥感视觉-语言理解中的语义噪声问题。本工作的核心创新在于提出了一种借鉴先验知识以指导视觉与文本表征自适应学习的新范式。具体而言,本文设计了两种渐进式注意力编码器(Progressive Attention Encoder, PAE)结构——空间PAE(Spatial-PAE)与时间PAE(Temporal-PAE),用于建模长程依赖关系,从而增强关键特征的表征能力。在视觉表征方面,基于Spatial-PAE的视觉指令表征(Vision Instruction Representation, VIR)通过构建信念矩阵,利用遥感场景识别的先验引导知识,筛选出关键特征,有效降低语义噪声的影响。在文本表征方面,基于Temporal-PAE的语言循环注意力机制(Language Cycle Attention, LCA)通过前一时间步对当前时间步进行循环激活,显著提升了文本的表征能力。此外,本文提出了一种簇级隶属损失(Cluster-wise Affiliation Loss),用于约束类别间的区分性,减少公共子空间中的语义混淆区域。大量实验证明,引入先验知识指导的表征学习机制能够显著提升视觉与文本的表征性能,在两个基准数据集RSICD和RSITMD上均优于现有最先进方法。

基准测试

基准方法指标
cross-modal-retrieval-on-rsicdPIR
Image-to-text R@1: 9.88%
Mean Recall: 24.46%
text-to-image R@1: 6.97%
cross-modal-retrieval-on-rsitmdPIR
Image-to-text R@1: 18.14%
Mean Recall: 38.24%
text-to-imageR@1: 12.17%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供