3 个月前

即插即用调节器在图像-文本匹配中的应用

即插即用调节器在图像-文本匹配中的应用

摘要

利用细粒度对应关系与视觉-语义对齐在图像-文本匹配任务中展现出巨大潜力。通常,现有方法首先通过跨模态注意力单元捕捉潜在的区域-词交互关系,随后将所有对齐结果进行整合以获得最终的相似性得分。然而,大多数方法采用一次性的前向关联或聚合策略,依赖复杂的网络结构或额外信息,而忽视了网络反馈机制所具备的调节能力。为此,本文提出两种简单却极为有效的调节器,能够高效地编码输出信息,自动实现跨模态表示的上下文建模与聚合。具体而言,本文提出:(i)循环对应调节器(Recurrent Correspondence Regulator, RCR),通过自适应注意力因子逐步增强跨模态注意力单元,以捕获更灵活的跨模态对应关系;(ii)循环聚合调节器(Recurrent Aggregation Regulator, RAR),通过反复调整聚合权重,逐步强化重要对齐关系,同时抑制不重要对齐的影响。值得注意的是,RCR与RAR具有即插即用特性:二者可无缝集成至基于跨模态交互的多种主流框架中,并带来显著性能提升;两者协同作用时,进一步实现性能优化。在MSCOCO与Flickr30K数据集上的大量实验表明,所提方法在多个模型上均实现了显著且一致的R@1指标提升,充分验证了所提方法的通用有效性与良好的泛化能力。代码与预训练模型已开源,地址为:https://github.com/Paranioar/RCAR。

代码仓库

paranioar/rcar
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-modal-retrieval-on-coco-2014RCAR
Image-to-text R@1: 61.3
Image-to-text R@10: 92.6
Image-to-text R@5: 86.1
Text-to-image R@1: 44.3
Text-to-image R@10: 83.2
Text-to-image R@5: 73.2
cross-modal-retrieval-on-flickr30kRCAR
Image-to-text R@1: 82.3
Image-to-text R@10: 98.4
Image-to-text R@5: 96.0
Text-to-image R@1: 62.6
Text-to-image R@10: 91.1
Text-to-image R@5: 85.8
image-retrieval-on-flickr30k-1k-testRCAR
R@1: 62.6
R@10: 91.1
R@5: 85.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
即插即用调节器在图像-文本匹配中的应用 | 论文 | HyperAI超神经