3 个月前

用于校准跨模态检索的关系对齐学习

用于校准跨模态检索的关系对齐学习

摘要

尽管大规模多模态预训练方法取得了显著进展,跨模态检索(如图像-文本检索)仍是一项具有挑战性的任务。为弥合两种模态之间的语义鸿沟,以往研究主要聚焦于对象层面的词-区域对齐,却忽视了词语之间的语言关系与视觉区域之间的空间关系之间的匹配。这种关系一致性被忽略,严重影响了图像-文本对的上下文表征能力,进而制约了模型性能的提升与可解释性。本文首次提出一种新型度量指标——模内自注意力距离(Intra-modal Self-attention Distance, ISD),通过衡量语言关系与视觉关系之间的语义距离,量化二者的关系一致性。针对该度量,我们进一步提出一种正则化训练方法——模内自注意力的模间对齐(Inter-modal Alignment on Intra-modal Self-attentions, IAIS),通过模间对齐机制,实现双模态内部自注意力机制的相互校准与优化。实验结果表明,IAIS正则化方法显著提升了主流模型在Flickr30k与MS COCO数据集上的性能,充分验证了所提方法的有效性与优越性。

代码仓库

lancopku/IAIS
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-modal-retrieval-on-flickr30kIAIS
Image-to-text R@1: 88.3
Image-to-text R@10: 99.4
Image-to-text R@5: 98.4
Text-to-image R@1: 76.86
Text-to-image R@10: 95.72
Text-to-image R@5: 93.3
image-to-text-retrieval-on-cocoIAIS
Recall@1: 67.78
Recall@10: 94.48
Recall@5: 89.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于校准跨模态检索的关系对齐学习 | 论文 | HyperAI超神经