3 个月前

X-CLIP:面向视频-文本检索的端到端多粒度对比学习

X-CLIP:面向视频-文本检索的端到端多粒度对比学习

摘要

视频-文本检索是多模态研究中一项关键且基础性的任务。大规模多模态对比预训练的兴起显著推动了该任务的发展,现有方法主要聚焦于粗粒度或细粒度的对比学习。然而,跨粒度对比(即粗粒度表示与细粒度表示之间的对比)在以往研究中尚未得到充分探索。相较于仅关注粗粒度或细粒度的对比方式,跨粒度对比能够计算粗粒度特征与每个细粒度特征之间的相关性,并在相似性计算过程中,利用粗粒度特征引导过滤掉不必要的细粒度特征,从而提升检索的准确性。为此,本文提出一种新颖的多粒度对比模型——X-CLIP,用于视频-文本检索。然而,另一个关键挑战在于相似性聚合问题,即如何将细粒度相似性矩阵与跨粒度相似性矩阵有效融合,以获得实例级别的最终相似性得分。为解决该问题,我们设计了“相似性矩阵上的注意力机制”(Attention Over Similarity Matrix, AOSM)模块,使模型能够聚焦于关键帧与关键词之间的对比关系,从而降低无关帧或词语对检索结果的干扰。结合多粒度对比机制与所提出的AOSM模块,X-CLIP在五个广泛使用的视频-文本检索数据集上均取得了卓越性能,具体表现为:MSR-VTT(R@1: 49.3)、MSVD(R@1: 50.4)、LSMDC(R@1: 26.1)、DiDeMo(R@1: 47.8)和ActivityNet(R@1: 46.2)。相较于此前的最先进方法,X-CLIP在上述基准上分别实现了+6.3%、+6.6%、+11.1%、+6.7%和+3.8%的相对性能提升,充分验证了多粒度对比机制与AOSM模块的有效性与优越性。

基准测试

基准方法指标
video-retrieval-on-activitynetX-CLIP
text-to-video Mean Rank: 6.8
text-to-video R@1: 46.2
text-to-video R@5: 75.5
video-to-text Mean Rank: 6.4
video-to-text R@1: 46.4
video-to-text R@5: 75.9
video-retrieval-on-didemoX-CLIP
text-to-video Mean Rank: 12.6
text-to-video R@1: 47.8
text-to-video R@5: 79.3
video-to-text Mean Rank: 10.5
video-to-text R@1: 47.8
video-to-text R@10: 76.8
video-retrieval-on-lsmdcX-CLIP
text-to-video R@1: 26.1
video-to-text R@1: 26.9
video-retrieval-on-msr-vtt-1kaX-CLIP
text-to-video Mean Rank: 12.2
text-to-video Median Rank: 2.0
text-to-video R@1: 49.3
text-to-video R@10: 84.8
text-to-video R@5: 75.8
video-to-text Mean Rank: 8.1
video-to-text Median Rank: 2.0
video-to-text R@1: 48.9
video-to-text R@10: 84.5
video-to-text R@5: 76.8
video-retrieval-on-msvdX-CLIP
text-to-video Mean Rank: 8.4
text-to-video R@1: 50.4
text-to-video R@5: 80.6
video-to-text Mean Rank: 4.2
video-to-text R@1: 66.8
video-to-text R@10: 90.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
X-CLIP:面向视频-文本检索的端到端多粒度对比学习 | 论文 | HyperAI超神经