3 个月前

Clover:迈向统一的视频-语言对齐与融合模型

Clover:迈向统一的视频-语言对齐与融合模型

摘要

构建一个能够解决多种视频理解任务(如文本-视频检索、视频问答)的通用视频-语言模型,是机器学习领域的一项开放性挑战。为实现这一目标,近年来大多数研究工作通过堆叠单模态与跨模态特征编码器,并采用成对对比预训练任务进行模型训练。尽管这类方法展现出良好的通用性,但其在效率与性能之间往往难以兼顾,且通常需为不同下游任务设计不同的网络架构。我们发现,这一问题的根本原因在于成对训练难以有效实现多模态特征之间的对齐与融合。为此,我们提出 Clover——一种新型的关联式视频-语言预训练方法,旨在构建一个能够高效、无损地解决多种视频理解任务的通用视频-语言模型。Clover 通过引入一种新颖的三模态对齐预训练任务,显著提升了跨模态特征的对齐与融合能力。此外,我们进一步提出通过引入语义掩码样本的学习机制以及一种新的成对排序损失(pair-wise ranking loss),以增强三模态对齐效果。在多个下游任务上,Clover 均取得了新的最先进性能,涵盖三种零样本与微调设置下的文本-视频检索任务,以及八项视频问答任务。相关代码与预训练模型将开源发布于:https://github.com/LeeYN-43/Clover。

代码仓库

leeyn-43/clover
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-lsmdc-fibClover
Accuracy: 54.1
video-question-answering-on-lsmdc-mcClover
Accuracy: 83.7
video-question-answering-on-msrvtt-mcClover
Accuracy: 95.2
video-retrieval-on-didemoClover
text-to-video Median Rank: 1
text-to-video R@1: 50.1
text-to-video R@10: 85.6
text-to-video R@5: 76.7
video-retrieval-on-lsmdcClover
text-to-video Median Rank: 8
text-to-video R@1: 24.8
text-to-video R@10: 54.5
text-to-video R@5: 44
video-retrieval-on-msr-vtt-1kaClover
text-to-video Median Rank: 2
text-to-video R@1: 40.5
text-to-video R@10: 79.4
text-to-video R@5: 69.8
visual-question-answering-on-msrvtt-qa-1Clover
Accuracy: 0.441
visual-question-answering-on-msvd-qa-1Clover
Accuracy: 0.524
zero-shot-video-retrieval-on-didemoClover
text-to-video Median Rank: 4
text-to-video R@1: 29.5
text-to-video R@10: 66.3
text-to-video R@5: 55.2
zero-shot-video-retrieval-on-lsmdcClover
text-to-video Median Rank: 24
text-to-video R@1: 14.7
text-to-video R@10: 38.2
text-to-video R@5: 29.2
zero-shot-video-retrieval-on-msr-vttClover
text-to-video Median Rank: 6
text-to-video R@1: 26.4
text-to-video R@10: 60
text-to-video R@5: 49.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Clover:迈向统一的视频-语言对齐与融合模型 | 论文 | HyperAI超神经