3 个月前

3SHNet:通过视觉语义-空间自强化机制提升图像-句子检索性能

3SHNet:通过视觉语义-空间自强化机制提升图像-句子检索性能

摘要

本文提出了一种新颖的视觉语义-空间自强化网络(称为3SHNet),用于实现高精度、高效率且强泛化能力的图像-句子检索任务。3SHNet能够突出视觉模态中显著物体及其空间位置的识别特征,从而实现视觉语义与空间关系的深度融合,同时保持双模态之间的独立性。这种融合机制有效将分割得到的物体区域与其对应的语义信息和位置布局相结合,显著增强了视觉表征能力;而模态独立性则保障了模型的推理效率与泛化性能。此外,3SHNet利用分割提供的结构化上下文视觉场景信息,实现基于局部(区域级)或全局(网格级)的引导机制,从而达成精确的混合层级检索。在MS-COCO和Flickr30K两个基准数据集上进行的大量实验表明,与当前主流先进方法相比,所提出的3SHNet在性能表现、推理效率及跨数据集泛化能力方面均展现出显著优势。具体而言,在更大的MS-COCO 5K测试集上,相较于采用不同图像表示的最先进方法,3SHNet在rSum指标上分别取得了16.3%、24.8%和18.3%的提升,同时保持了最优的检索效率。此外,模型在跨数据集泛化能力方面性能提升了18.6%。相关数据与代码已开源,获取地址为:https://github.com/XuriGe1995/3SHNet。

代码仓库

xurige1995/3shnet
官方
pytorch

基准测试

基准方法指标
cross-modal-retrieval-on-coco-20143SHNet
Image-to-text R@1: 67.9
Image-to-text R@10: 95.4
Image-to-text R@5: 90.5
Text-to-image R@1: 50.3
Text-to-image R@10: 87.7
Text-to-image R@5: 79.3
cross-modal-retrieval-on-flickr30k3SHNet
Image-to-text R@1: 87.1
Image-to-text R@10: 99.2
Image-to-text R@5: 98.2
Text-to-image R@1: 69.5
Text-to-image R@10: 94.7
Text-to-image R@5: 91.0
cross-modal-retrieval-on-mscoco3SHNet
Image-to-text R@1: 85.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
3SHNet:通过视觉语义-空间自强化机制提升图像-句子检索性能 | 论文 | HyperAI超神经