
摘要
构建一个能够解决多种视频理解任务(如文本-视频检索、视频问答)的通用视频-语言模型,是机器学习领域的一项开放性挑战。为实现这一目标,近年来大多数研究工作通过堆叠单模态与跨模态特征编码器,并采用成对对比预训练任务进行模型训练。尽管这类方法展现出良好的通用性,但其在效率与性能之间往往难以兼顾,且通常需为不同下游任务设计不同的网络架构。我们发现,这一问题的根本原因在于成对训练难以有效实现多模态特征之间的对齐与融合。为此,我们提出 Clover——一种新型的关联式视频-语言预训练方法,旨在构建一个能够高效、无损地解决多种视频理解任务的通用视频-语言模型。Clover 通过引入一种新颖的三模态对齐预训练任务,显著提升了跨模态特征的对齐与融合能力。此外,我们进一步提出通过引入语义掩码样本的学习机制以及一种新的成对排序损失(pair-wise ranking loss),以增强三模态对齐效果。在多个下游任务上,Clover 均取得了新的最先进性能,涵盖三种零样本与微调设置下的文本-视频检索任务,以及八项视频问答任务。相关代码与预训练模型将开源发布于:https://github.com/LeeYN-43/Clover。
代码仓库
leeyn-43/clover
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-question-answering-on-lsmdc-fib | Clover | Accuracy: 54.1 |
| video-question-answering-on-lsmdc-mc | Clover | Accuracy: 83.7 |
| video-question-answering-on-msrvtt-mc | Clover | Accuracy: 95.2 |
| video-retrieval-on-didemo | Clover | text-to-video Median Rank: 1 text-to-video R@1: 50.1 text-to-video R@10: 85.6 text-to-video R@5: 76.7 |
| video-retrieval-on-lsmdc | Clover | text-to-video Median Rank: 8 text-to-video R@1: 24.8 text-to-video R@10: 54.5 text-to-video R@5: 44 |
| video-retrieval-on-msr-vtt-1ka | Clover | text-to-video Median Rank: 2 text-to-video R@1: 40.5 text-to-video R@10: 79.4 text-to-video R@5: 69.8 |
| visual-question-answering-on-msrvtt-qa-1 | Clover | Accuracy: 0.441 |
| visual-question-answering-on-msvd-qa-1 | Clover | Accuracy: 0.524 |
| zero-shot-video-retrieval-on-didemo | Clover | text-to-video Median Rank: 4 text-to-video R@1: 29.5 text-to-video R@10: 66.3 text-to-video R@5: 55.2 |
| zero-shot-video-retrieval-on-lsmdc | Clover | text-to-video Median Rank: 24 text-to-video R@1: 14.7 text-to-video R@10: 38.2 text-to-video R@5: 29.2 |
| zero-shot-video-retrieval-on-msr-vtt | Clover | text-to-video Median Rank: 6 text-to-video R@1: 26.4 text-to-video R@10: 60 text-to-video R@5: 49.5 |