3 个月前

基于查询库归一化的跨模态检索

基于查询库归一化的跨模态检索

摘要

得益于大规模训练数据集、神经网络架构设计的进展以及高效推理技术的发展,联合嵌入(joint embeddings)已成为解决跨模态检索问题的主流方法。本文首次揭示,尽管当前最先进的联合嵌入方法在性能上表现出色,但仍严重受到长期存在的“中心性问题”(hubness problem)的困扰——即少数几个候选集嵌入项会频繁成为大量查询项的最近邻。受自然语言处理领域相关研究的启发,我们提出了一种简单而有效的框架,称为查询库归一化(Querybank Normalisation, QB-Norm),该方法通过对查询相似度进行重归一化,以缓解嵌入空间中中心性节点带来的偏差。QB-Norm能够在不需重新训练模型的前提下显著提升检索性能。与以往工作不同,我们进一步证明,QB-Norm在无需同时访问任何测试集查询的情况下仍能有效工作。在QB-Norm框架内,我们还提出了一种新颖的相似度归一化方法——动态反向Softmax(Dynamic Inverted Softmax),其鲁棒性显著优于现有方法。我们在多种跨模态检索模型与基准测试中验证了QB-Norm的有效性,结果表明该方法能持续超越现有最先进水平,显著提升强基线模型的性能。代码已开源,详见:https://vladbogo.github.io/QB-Norm/。

代码仓库

基准测试

基准方法指标
metric-learning-on-stanford-online-products-1QB-Norm+RDML
R@1: 78.1
video-retrieval-on-didemoQB-Norm+CLIP4Clip
text-to-video Median Rank: 2.0
text-to-video R@1: 43.5
text-to-video R@10: 80.9
text-to-video R@5: 71.4
video-retrieval-on-lsmdcQB-Norm+CLIP4Clip
text-to-video Median Rank: 11.0
text-to-video R@1: 22.4
text-to-video R@10: 49.5
text-to-video R@5: 40.1
video-retrieval-on-msr-vtt-1kaQB-Norm+CLIP2Video
text-to-video Median Rank: 2
text-to-video R@1: 47.2
text-to-video R@10: 83.0
text-to-video R@5: 73.0
video-retrieval-on-msvdQB-Norm+CLIP2Video
text-to-video Median Rank: 2.0
text-to-video R@1: 48.0
text-to-video R@10: 86.2
text-to-video R@5: 77.9
video-retrieval-on-querydQB-Norm+TT-CE+
text-to-video R@1: 15.1
video-retrieval-on-vatexQB-Norm+CLIP2Video
text-to-video R@1: 58.8
text-to-video R@10: 93.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于查询库归一化的跨模态检索 | 论文 | HyperAI超神经