3 个月前

减少语义混淆:面向遥感跨模态检索的场景感知聚合网络

减少语义混淆:面向遥感跨模态检索的场景感知聚合网络

摘要

近年来,遥感跨模态检索受到了研究者的广泛关注。然而,遥感图像独特的特性导致语义空间中存在大量语义混淆区域,严重制约了检索性能的提升。为此,本文提出一种新型的场景感知聚合网络(Scene-aware Weighted Aggregation Network, SWAN),通过增强场景感知能力来降低语义混淆。在视觉表征方面,设计了一种视觉多尺度融合模块(Visual Multiscale Fusion, VMSF),用于融合不同尺度的视觉特征,作为视觉表征的主干网络;同时,提出一种场景细粒度感知模块(Scene Fine-grained Sensing, SFGS),以建立不同粒度下显著特征之间的关联关系。通过这两个模块生成的视觉信息,构建出具有场景感知能力的视觉聚合表征。在文本表征方面,设计了文本粗粒度增强模块(Textual Coarse-grained Enhancement, TCGE),用于增强文本语义并实现与视觉信息的有效对齐。此外,由于遥感场景的多样性与差异性削弱了对场景的整体理解,本文提出一种新的评估指标——场景召回率(Scene Recall),通过评估场景级别的检索性能来衡量模型对场景的感知能力,同时可验证所提方法在缓解语义混淆方面的有效性。通过在RSICD和RSITMD两个数据集上的性能对比实验、消融研究及可视化分析,充分验证了所提方法的有效性与优越性。相关源代码已开源,地址为:https://github.com/kinshingpoon/SWAN-pytorch。

基准测试

基准方法指标
cross-modal-retrieval-on-rsicdSWAN
Image-to-text R@1: 7.41%
Mean Recall: 20.61%
text-to-image R@1: 5.56%
cross-modal-retrieval-on-rsitmdSWAN
Image-to-text R@1: 13.35%
Mean Recall: 34.11%
text-to-imageR@1: 11.24%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供