3 个月前

NAPReg:以名词作为代理的正则化方法用于语义感知的跨模态嵌入

NAPReg:以名词作为代理的正则化方法用于语义感知的跨模态嵌入

摘要

跨模态检索是一项基础的视觉-语言任务,具有广泛的实际应用价值。其中,文本到图像匹配是最常见的跨模态检索形式:给定一个大规模图像数据库和一个文本查询,任务目标是检索出最相关的图像集合。现有方法通常采用双编码器架构,结合注意力机制与排序损失(ranking loss),以学习可用于基于余弦相似度进行检索的嵌入表示。尽管这些方法通过定制化的注意力机制尝试在视觉区域与文本词语之间实现语义对齐,但其训练目标并未显式地施加约束以强制这种对齐。为解决上述问题,我们提出了一种新颖的正则化方法——NAPReg(Noun-Aware Proxy Regularization),该方法将高层语义实体(即名词)显式地投影到嵌入空间中,作为共享的可学习代理(learnable proxies)。实验表明,该方法不仅有助于注意力机制学习更精准的词-区域对齐关系,还能利用其他样本中的区域信息,构建更具泛化能力的语义概念潜在表示。在三个基准数据集(MS-COCO、Flickr30k 和 Flickr8k)上的实验结果表明,我们的方法在文本-图像与图像-文本跨模态检索任务中均达到了当前最优的度量学习性能。代码已开源:https://github.com/bhavinjawade/NAPReg

基准测试

基准方法指标
cross-modal-retrieval-on-coco-2014NAPReg
Image-to-text R@1: 59.8
Text-to-image R@1: 43.0
cross-modal-retrieval-on-flickr-8kNAPReg
Image-to-text R@1: 56.2
Text-to-image R@1: 39.2
cross-modal-retrieval-on-flickr30kNAPReg
Image-to-text R@1: 79.6
Text-to-image R@1: 60.0
cross-modal-retrieval-on-ms-coco-2014-1NAPReg
Text-to-image R@1: 43.0
cross-modal-retrieval-on-mscoco-1kNAPReg
Image-to-text R@1: 81.9
Text-to-image R@1: 66.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
NAPReg:以名词作为代理的正则化方法用于语义感知的跨模态嵌入 | 论文 | HyperAI超神经