3 个月前

期望最大化对比学习用于紧凑的视频-语言表征

期望最大化对比学习用于紧凑的视频-语言表征

摘要

大多数视频与语言表征学习方法采用对比学习(如CLIP),通过文本-视频对之间的语义相似性,将视频和文本特征映射到一个共享的潜在空间中。然而,这类学习得到的共享潜在空间往往并非最优,视觉与文本表征之间的模态差异也难以完全消除。本文提出了一种期望最大化对比学习方法(Expectation-Maximization Contrastive Learning, EMCL),以学习更加紧凑的视频-语言表征。具体而言,我们利用期望最大化(Expectation-Maximization)算法,为潜在空间寻找一组紧凑的基向量,使得特征能够以这些基向量的线性组合形式被简洁地表示。这种视频-语言表征的特征分解有效降低了潜在空间的秩,从而提升了语义表达能力。在三个基准文本-视频检索数据集上的大量实验表明,所提出的EMCL方法能够学习到比以往方法更具判别性的视频-语言表征,并在所有评估指标上显著超越现有最先进方法。更令人鼓舞的是,该方法可作为联合训练层或即插即用的推理模块,无需额外训练即可提升现有方法的性能,因而能够方便地集成到任何现有框架中。

代码仓库

jpthu17/dicosa
pytorch
GitHub 中提及
jpthu17/HBI
pytorch
GitHub 中提及
jpthu17/emcl
官方
pytorch
GitHub 中提及
jpthu17/diffusionret
pytorch
GitHub 中提及

基准测试

基准方法指标
video-captioning-on-msr-vtt-1EMCL-Net
BLEU-4: 45.3
CIDEr: 54.6
METEOR: 30.2
ROUGE-L: 63.2
video-question-answering-on-msrvtt-qaEMCL-Net
Accuracy: 45.8
video-retrieval-on-activitynetEMCL-Net
text-to-video Mean Rank: 2
text-to-video R@1: 41.2
text-to-video R@5: 72.7
video-to-text Mean Rank: 2
video-to-text R@1: 42.7
video-to-text R@5: 74
video-to-text R@50: 98.3
video-retrieval-on-activitynetEMCL-Net++
text-to-video Mean Rank: 1
text-to-video R@1: 50.6
text-to-video R@5: 78.7
text-to-video R@50: 98.1
video-to-text Mean Rank: 1
video-to-text R@1: 50.6
video-to-text R@5: 78.9
video-to-text R@50: 98.4
video-retrieval-on-lsmdcEMCL-Net
text-to-video R@1: 23.9
text-to-video R@10: 50.9
text-to-video R@5: 42.4
video-to-text Mean Rank: 12
video-to-text R@1: 22.2
video-to-text R@10: 49.2
video-to-text R@5: 40.6
video-retrieval-on-lsmdcEMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)
text-to-video Mean Rank: 8
text-to-video R@10: 53.7
video-retrieval-on-lsmdcEMCL-Net++
text-to-video R@1: 25.9
text-to-video R@5: 46.4
video-to-text Mean Rank: 8
video-to-text R@1: 26.7
video-to-text R@10: 54.4
video-to-text R@5: 44.7
video-retrieval-on-msr-vtt-1kaEMCL-Net
text-to-video Mean Rank: 2
text-to-video R@1: 46.8
text-to-video R@10: 83.1
text-to-video R@5: 73.1
video-to-text Mean Rank: 2
video-to-text R@1: 46.5
video-to-text R@10: 83.5
video-to-text R@5: 73.5
video-retrieval-on-msr-vtt-1kaEMCL-Net++
text-to-video Mean Rank: 1
text-to-video R@1: 51.6
text-to-video R@10: 85.3
text-to-video R@5: 78.1
video-to-text Mean Rank: 1
video-to-text R@1: 51.8
video-to-text R@10: 88
video-to-text R@5: 80.2
visual-question-answering-on-msrvtt-qa-1EMCL-Net
Accuracy: 0.458

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
期望最大化对比学习用于紧凑的视频-语言表征 | 论文 | HyperAI超神经