6 个月前

摘要

视频-文本检索是多模态研究中一项关键且基础性的任务。大规模多模态对比预训练的兴起显著推动了该任务的发展，现有方法主要聚焦于粗粒度或细粒度的对比学习。然而，跨粒度对比（即粗粒度表示与细粒度表示之间的对比）在以往研究中尚未得到充分探索。相较于仅关注粗粒度或细粒度的对比方式，跨粒度对比能够计算粗粒度特征与每个细粒度特征之间的相关性，并在相似性计算过程中，利用粗粒度特征引导过滤掉不必要的细粒度特征，从而提升检索的准确性。为此，本文提出一种新颖的多粒度对比模型——X-CLIP，用于视频-文本检索。然而，另一个关键挑战在于相似性聚合问题，即如何将细粒度相似性矩阵与跨粒度相似性矩阵有效融合，以获得实例级别的最终相似性得分。为解决该问题，我们设计了“相似性矩阵上的注意力机制”（Attention Over Similarity Matrix, AOSM）模块，使模型能够聚焦于关键帧与关键词之间的对比关系，从而降低无关帧或词语对检索结果的干扰。结合多粒度对比机制与所提出的AOSM模块，X-CLIP在五个广泛使用的视频-文本检索数据集上均取得了卓越性能，具体表现为：MSR-VTT（R@1: 49.3）、MSVD（R@1: 50.4）、LSMDC（R@1: 26.1）、DiDeMo（R@1: 47.8）和ActivityNet（R@1: 46.2）。相较于此前的最先进方法，X-CLIP在上述基准上分别实现了+6.3%、+6.6%、+11.1%、+6.7%和+3.8%的相对性能提升，充分验证了多粒度对比机制与AOSM模块的有效性与优越性。

源 PDF 查看代码