
摘要
大多数视频与语言表征学习方法采用对比学习(如CLIP),通过文本-视频对之间的语义相似性,将视频和文本特征映射到一个共享的潜在空间中。然而,这类学习得到的共享潜在空间往往并非最优,视觉与文本表征之间的模态差异也难以完全消除。本文提出了一种期望最大化对比学习方法(Expectation-Maximization Contrastive Learning, EMCL),以学习更加紧凑的视频-语言表征。具体而言,我们利用期望最大化(Expectation-Maximization)算法,为潜在空间寻找一组紧凑的基向量,使得特征能够以这些基向量的线性组合形式被简洁地表示。这种视频-语言表征的特征分解有效降低了潜在空间的秩,从而提升了语义表达能力。在三个基准文本-视频检索数据集上的大量实验表明,所提出的EMCL方法能够学习到比以往方法更具判别性的视频-语言表征,并在所有评估指标上显著超越现有最先进方法。更令人鼓舞的是,该方法可作为联合训练层或即插即用的推理模块,无需额外训练即可提升现有方法的性能,因而能够方便地集成到任何现有框架中。
代码仓库
jpthu17/dicosa
pytorch
GitHub 中提及
jpthu17/HBI
pytorch
GitHub 中提及
jpthu17/emcl
官方
pytorch
GitHub 中提及
jpthu17/diffusionret
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-captioning-on-msr-vtt-1 | EMCL-Net | BLEU-4: 45.3 CIDEr: 54.6 METEOR: 30.2 ROUGE-L: 63.2 |
| video-question-answering-on-msrvtt-qa | EMCL-Net | Accuracy: 45.8 |
| video-retrieval-on-activitynet | EMCL-Net | text-to-video Mean Rank: 2 text-to-video R@1: 41.2 text-to-video R@5: 72.7 video-to-text Mean Rank: 2 video-to-text R@1: 42.7 video-to-text R@5: 74 video-to-text R@50: 98.3 |
| video-retrieval-on-activitynet | EMCL-Net++ | text-to-video Mean Rank: 1 text-to-video R@1: 50.6 text-to-video R@5: 78.7 text-to-video R@50: 98.1 video-to-text Mean Rank: 1 video-to-text R@1: 50.6 video-to-text R@5: 78.9 video-to-text R@50: 98.4 |
| video-retrieval-on-lsmdc | EMCL-Net | text-to-video R@1: 23.9 text-to-video R@10: 50.9 text-to-video R@5: 42.4 video-to-text Mean Rank: 12 video-to-text R@1: 22.2 video-to-text R@10: 49.2 video-to-text R@5: 40.6 |
| video-retrieval-on-lsmdc | EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015) | text-to-video Mean Rank: 8 text-to-video R@10: 53.7 |
| video-retrieval-on-lsmdc | EMCL-Net++ | text-to-video R@1: 25.9 text-to-video R@5: 46.4 video-to-text Mean Rank: 8 video-to-text R@1: 26.7 video-to-text R@10: 54.4 video-to-text R@5: 44.7 |
| video-retrieval-on-msr-vtt-1ka | EMCL-Net | text-to-video Mean Rank: 2 text-to-video R@1: 46.8 text-to-video R@10: 83.1 text-to-video R@5: 73.1 video-to-text Mean Rank: 2 video-to-text R@1: 46.5 video-to-text R@10: 83.5 video-to-text R@5: 73.5 |
| video-retrieval-on-msr-vtt-1ka | EMCL-Net++ | text-to-video Mean Rank: 1 text-to-video R@1: 51.6 text-to-video R@10: 85.3 text-to-video R@5: 78.1 video-to-text Mean Rank: 1 video-to-text R@1: 51.8 video-to-text R@10: 88 video-to-text R@5: 80.2 |
| visual-question-answering-on-msrvtt-qa-1 | EMCL-Net | Accuracy: 0.458 |