
摘要
本文提出了一种新颖的视觉语义-空间自强化网络(称为3SHNet),用于实现高精度、高效率且强泛化能力的图像-句子检索任务。3SHNet能够突出视觉模态中显著物体及其空间位置的识别特征,从而实现视觉语义与空间关系的深度融合,同时保持双模态之间的独立性。这种融合机制有效将分割得到的物体区域与其对应的语义信息和位置布局相结合,显著增强了视觉表征能力;而模态独立性则保障了模型的推理效率与泛化性能。此外,3SHNet利用分割提供的结构化上下文视觉场景信息,实现基于局部(区域级)或全局(网格级)的引导机制,从而达成精确的混合层级检索。在MS-COCO和Flickr30K两个基准数据集上进行的大量实验表明,与当前主流先进方法相比,所提出的3SHNet在性能表现、推理效率及跨数据集泛化能力方面均展现出显著优势。具体而言,在更大的MS-COCO 5K测试集上,相较于采用不同图像表示的最先进方法,3SHNet在rSum指标上分别取得了16.3%、24.8%和18.3%的提升,同时保持了最优的检索效率。此外,模型在跨数据集泛化能力方面性能提升了18.6%。相关数据与代码已开源,获取地址为:https://github.com/XuriGe1995/3SHNet。
代码仓库
xurige1995/3shnet
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-on-coco-2014 | 3SHNet | Image-to-text R@1: 67.9 Image-to-text R@10: 95.4 Image-to-text R@5: 90.5 Text-to-image R@1: 50.3 Text-to-image R@10: 87.7 Text-to-image R@5: 79.3 |
| cross-modal-retrieval-on-flickr30k | 3SHNet | Image-to-text R@1: 87.1 Image-to-text R@10: 99.2 Image-to-text R@5: 98.2 Text-to-image R@1: 69.5 Text-to-image R@10: 94.7 Text-to-image R@5: 91.0 |
| cross-modal-retrieval-on-mscoco | 3SHNet | Image-to-text R@1: 85.8 |