3 个月前

MDMMT-2:面向视频检索的多领域多模态Transformer,向通用性再进一步

MDMMT-2:面向视频检索的多领域多模态Transformer,向通用性再进一步

摘要

在本工作中,我们提出了一种基于单一模型的文本到视频检索任务的最新技术水平,该成果在MSR-VTT、LSMDC、MSVD、YouCook2和TGIF五个基准数据集上均取得了优异表现。研究整合了三种不同类型的数据源:弱监督视频数据、众包标注的文本-图像配对数据以及文本-视频配对数据。通过对现有预训练网络的深入分析,我们选取了最具价值的先验知识模型以提升性能。为此,我们设计了一种三阶段训练流程,该流程具有高效的迁移学习能力,能够在训练过程中有效利用带有噪声的数据集,同时避免先验知识的退化。此外,为实现更优的多模态融合效果,本文引入了双位置编码机制,并提出了一种针对非正方形输入的简单处理方法。

基准测试

基准方法指标
video-retrieval-on-lsmdcMDMMT-2
text-to-video Mean Rank: 48.0
text-to-video Median Rank: 6.7
text-to-video R@1: 26.9
text-to-video R@10: 55.9
text-to-video R@5: 46.7
video-retrieval-on-msr-vttMDMMT-2
text-to-video Mean Rank: 37.8
text-to-video Median Rank: 3.0
text-to-video R@1: 33.7
text-to-video R@10: 70.8
text-to-video R@5: 60.5
video-retrieval-on-msvdMDMMT-2
text-to-video Mean Rank: 8.8
text-to-video Median Rank: 1.0
text-to-video R@1: 56.8
text-to-video R@10: 89.2
text-to-video R@5: 83.1
video-retrieval-on-tgifMDMMT-2
text-to-video Mean Rank: 94.1
text-to-video Median Rank: 7.0
text-to-video R@1: 25.5
text-to-video R@10: 55.7
text-to-video R@5: 46.1
video-retrieval-on-youcook2MDMMT-2
text-to-video Mean Rank: 12.7
text-to-video Median Rank: 3.0
text-to-video R@1: 32.0
text-to-video R@10: 74.8
text-to-video R@5: 64.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MDMMT-2:面向视频检索的多领域多模态Transformer,向通用性再进一步 | 论文 | HyperAI超神经