
摘要
视频-文本检索是多模态研究中一项关键且基础性的任务。大规模多模态对比预训练的兴起显著推动了该任务的发展,现有方法主要聚焦于粗粒度或细粒度的对比学习。然而,跨粒度对比(即粗粒度表示与细粒度表示之间的对比)在以往研究中尚未得到充分探索。相较于仅关注粗粒度或细粒度的对比方式,跨粒度对比能够计算粗粒度特征与每个细粒度特征之间的相关性,并在相似性计算过程中,利用粗粒度特征引导过滤掉不必要的细粒度特征,从而提升检索的准确性。为此,本文提出一种新颖的多粒度对比模型——X-CLIP,用于视频-文本检索。然而,另一个关键挑战在于相似性聚合问题,即如何将细粒度相似性矩阵与跨粒度相似性矩阵有效融合,以获得实例级别的最终相似性得分。为解决该问题,我们设计了“相似性矩阵上的注意力机制”(Attention Over Similarity Matrix, AOSM)模块,使模型能够聚焦于关键帧与关键词之间的对比关系,从而降低无关帧或词语对检索结果的干扰。结合多粒度对比机制与所提出的AOSM模块,X-CLIP在五个广泛使用的视频-文本检索数据集上均取得了卓越性能,具体表现为:MSR-VTT(R@1: 49.3)、MSVD(R@1: 50.4)、LSMDC(R@1: 26.1)、DiDeMo(R@1: 47.8)和ActivityNet(R@1: 46.2)。相较于此前的最先进方法,X-CLIP在上述基准上分别实现了+6.3%、+6.6%、+11.1%、+6.7%和+3.8%的相对性能提升,充分验证了多粒度对比机制与AOSM模块的有效性与优越性。
代码仓库
MindCode-4/code-5/tree/main/x_clip
mindspore
xuguohai/X-CLIP
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-activitynet | X-CLIP | text-to-video Mean Rank: 6.8 text-to-video R@1: 46.2 text-to-video R@5: 75.5 video-to-text Mean Rank: 6.4 video-to-text R@1: 46.4 video-to-text R@5: 75.9 |
| video-retrieval-on-didemo | X-CLIP | text-to-video Mean Rank: 12.6 text-to-video R@1: 47.8 text-to-video R@5: 79.3 video-to-text Mean Rank: 10.5 video-to-text R@1: 47.8 video-to-text R@10: 76.8 |
| video-retrieval-on-lsmdc | X-CLIP | text-to-video R@1: 26.1 video-to-text R@1: 26.9 |
| video-retrieval-on-msr-vtt-1ka | X-CLIP | text-to-video Mean Rank: 12.2 text-to-video Median Rank: 2.0 text-to-video R@1: 49.3 text-to-video R@10: 84.8 text-to-video R@5: 75.8 video-to-text Mean Rank: 8.1 video-to-text Median Rank: 2.0 video-to-text R@1: 48.9 video-to-text R@10: 84.5 video-to-text R@5: 76.8 |
| video-retrieval-on-msvd | X-CLIP | text-to-video Mean Rank: 8.4 text-to-video R@1: 50.4 text-to-video R@5: 80.6 video-to-text Mean Rank: 4.2 video-to-text R@1: 66.8 video-to-text R@10: 90.4 |