
摘要
利用细粒度对应关系与视觉-语义对齐在图像-文本匹配任务中展现出巨大潜力。通常,现有方法首先通过跨模态注意力单元捕捉潜在的区域-词交互关系,随后将所有对齐结果进行整合以获得最终的相似性得分。然而,大多数方法采用一次性的前向关联或聚合策略,依赖复杂的网络结构或额外信息,而忽视了网络反馈机制所具备的调节能力。为此,本文提出两种简单却极为有效的调节器,能够高效地编码输出信息,自动实现跨模态表示的上下文建模与聚合。具体而言,本文提出:(i)循环对应调节器(Recurrent Correspondence Regulator, RCR),通过自适应注意力因子逐步增强跨模态注意力单元,以捕获更灵活的跨模态对应关系;(ii)循环聚合调节器(Recurrent Aggregation Regulator, RAR),通过反复调整聚合权重,逐步强化重要对齐关系,同时抑制不重要对齐的影响。值得注意的是,RCR与RAR具有即插即用特性:二者可无缝集成至基于跨模态交互的多种主流框架中,并带来显著性能提升;两者协同作用时,进一步实现性能优化。在MSCOCO与Flickr30K数据集上的大量实验表明,所提方法在多个模型上均实现了显著且一致的R@1指标提升,充分验证了所提方法的通用有效性与良好的泛化能力。代码与预训练模型已开源,地址为:https://github.com/Paranioar/RCAR。
代码仓库
paranioar/rcar
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-on-coco-2014 | RCAR | Image-to-text R@1: 61.3 Image-to-text R@10: 92.6 Image-to-text R@5: 86.1 Text-to-image R@1: 44.3 Text-to-image R@10: 83.2 Text-to-image R@5: 73.2 |
| cross-modal-retrieval-on-flickr30k | RCAR | Image-to-text R@1: 82.3 Image-to-text R@10: 98.4 Image-to-text R@5: 96.0 Text-to-image R@1: 62.6 Text-to-image R@10: 91.1 Text-to-image R@5: 85.8 |
| image-retrieval-on-flickr30k-1k-test | RCAR | R@1: 62.6 R@10: 91.1 R@5: 85.8 |