
摘要
得益于大规模训练数据集、神经网络架构设计的进展以及高效推理技术的发展,联合嵌入(joint embeddings)已成为解决跨模态检索问题的主流方法。本文首次揭示,尽管当前最先进的联合嵌入方法在性能上表现出色,但仍严重受到长期存在的“中心性问题”(hubness problem)的困扰——即少数几个候选集嵌入项会频繁成为大量查询项的最近邻。受自然语言处理领域相关研究的启发,我们提出了一种简单而有效的框架,称为查询库归一化(Querybank Normalisation, QB-Norm),该方法通过对查询相似度进行重归一化,以缓解嵌入空间中中心性节点带来的偏差。QB-Norm能够在不需重新训练模型的前提下显著提升检索性能。与以往工作不同,我们进一步证明,QB-Norm在无需同时访问任何测试集查询的情况下仍能有效工作。在QB-Norm框架内,我们还提出了一种新颖的相似度归一化方法——动态反向Softmax(Dynamic Inverted Softmax),其鲁棒性显著优于现有方法。我们在多种跨模态检索模型与基准测试中验证了QB-Norm的有效性,结果表明该方法能持续超越现有最先进水平,显著提升强基线模型的性能。代码已开源,详见:https://vladbogo.github.io/QB-Norm/。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| metric-learning-on-stanford-online-products-1 | QB-Norm+RDML | R@1: 78.1 |
| video-retrieval-on-didemo | QB-Norm+CLIP4Clip | text-to-video Median Rank: 2.0 text-to-video R@1: 43.5 text-to-video R@10: 80.9 text-to-video R@5: 71.4 |
| video-retrieval-on-lsmdc | QB-Norm+CLIP4Clip | text-to-video Median Rank: 11.0 text-to-video R@1: 22.4 text-to-video R@10: 49.5 text-to-video R@5: 40.1 |
| video-retrieval-on-msr-vtt-1ka | QB-Norm+CLIP2Video | text-to-video Median Rank: 2 text-to-video R@1: 47.2 text-to-video R@10: 83.0 text-to-video R@5: 73.0 |
| video-retrieval-on-msvd | QB-Norm+CLIP2Video | text-to-video Median Rank: 2.0 text-to-video R@1: 48.0 text-to-video R@10: 86.2 text-to-video R@5: 77.9 |
| video-retrieval-on-queryd | QB-Norm+TT-CE+ | text-to-video R@1: 15.1 |
| video-retrieval-on-vatex | QB-Norm+CLIP2Video | text-to-video R@1: 58.8 text-to-video R@10: 93.8 |