
摘要
在本工作中,我们提出了一种基于单一模型的文本到视频检索任务的最新技术水平,该成果在MSR-VTT、LSMDC、MSVD、YouCook2和TGIF五个基准数据集上均取得了优异表现。研究整合了三种不同类型的数据源:弱监督视频数据、众包标注的文本-图像配对数据以及文本-视频配对数据。通过对现有预训练网络的深入分析,我们选取了最具价值的先验知识模型以提升性能。为此,我们设计了一种三阶段训练流程,该流程具有高效的迁移学习能力,能够在训练过程中有效利用带有噪声的数据集,同时避免先验知识的退化。此外,为实现更优的多模态融合效果,本文引入了双位置编码机制,并提出了一种针对非正方形输入的简单处理方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-lsmdc | MDMMT-2 | text-to-video Mean Rank: 48.0 text-to-video Median Rank: 6.7 text-to-video R@1: 26.9 text-to-video R@10: 55.9 text-to-video R@5: 46.7 |
| video-retrieval-on-msr-vtt | MDMMT-2 | text-to-video Mean Rank: 37.8 text-to-video Median Rank: 3.0 text-to-video R@1: 33.7 text-to-video R@10: 70.8 text-to-video R@5: 60.5 |
| video-retrieval-on-msvd | MDMMT-2 | text-to-video Mean Rank: 8.8 text-to-video Median Rank: 1.0 text-to-video R@1: 56.8 text-to-video R@10: 89.2 text-to-video R@5: 83.1 |
| video-retrieval-on-tgif | MDMMT-2 | text-to-video Mean Rank: 94.1 text-to-video Median Rank: 7.0 text-to-video R@1: 25.5 text-to-video R@10: 55.7 text-to-video R@5: 46.1 |
| video-retrieval-on-youcook2 | MDMMT-2 | text-to-video Mean Rank: 12.7 text-to-video Median Rank: 3.0 text-to-video R@1: 32.0 text-to-video R@10: 74.8 text-to-video R@5: 64.0 |