
摘要
将大规模预训练模型CLIP应用于视频-文本检索任务(Video-Text Retrieval, VTR)已成为当前的新趋势,其性能已超越以往的VTR方法。然而,由于视频与文本在结构和内容上存在显著异质性,基于CLIP的现有方法在训练阶段容易出现过拟合问题,导致检索性能相对欠佳。为此,本文提出一种多流语料对齐网络——单门控专家混合模型(Multi-stream Corpus Alignment network with Single-gate Mixture-of-Experts, CAMoE),并设计了一种新型双Softmax损失函数(Dual Softmax Loss, DSL),以有效应对上述两类异质性问题。CAMoE采用专家混合(Mixture-of-Experts, MoE)机制,从多个视角提取视频的表征,涵盖动作、实体、场景等不同维度,随后将其与文本中对应的语义部分进行对齐。在该阶段,我们对特征提取模块与特征对齐模块进行了大规模探索与优化。DSL损失函数旨在避免传统对比学习方法中存在的“单向最优匹配”问题。通过引入批次内每对样本的内在先验信息,DSL作为相似性矩阵的修正器,实现双向最优匹配,显著提升匹配质量。该损失函数实现极为简便,仅需一行代码即可集成,但性能提升显著。实验结果表明,所提出的CAMoE与DSL均具备强大的有效性,二者各自在MSR-VTT、MSVD和LSMDC等多个基准数据集上均能达到当前最优(State-of-the-Art, SOTA)水平。进一步地,当两者协同使用时,性能获得大幅提升,在MSR-VTT数据集上,R@1指标相较此前SOTA方法提升约4.6%。
代码仓库
starmemda/camow
官方
pytorch
GitHub 中提及
starmemda/CAMoE
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-activitynet | CAMoE | text-to-video Mean Rank: 6.3 text-to-video Median Rank: 1 text-to-video R@1: 51.0 text-to-video R@10: 87.6 text-to-video R@5: 77.7 |
| video-retrieval-on-didemo | CAMoE | text-to-video Mean Rank: 16.3 text-to-video Median Rank: 2.0 text-to-video R@1: 43.8 text-to-video R@10: 79.9 text-to-video R@5: 71.4 video-to-text Mean Rank: 10.2 video-to-text Median Rank: 2 video-to-text R@1: 45.5 video-to-text R@10: 80.5 |
| video-retrieval-on-lsmdc | CAMoE | text-to-video Mean Rank: 54.4 text-to-video R@1: 25.9 text-to-video R@10: 53.7 text-to-video R@5: 46.1 |
| video-retrieval-on-msr-vtt | CAMoE | text-to-video Mean Rank: 42.6 text-to-video Median Rank: 3 text-to-video R@1: 32.9 text-to-video R@10: 68.4 text-to-video R@5: 58.3 video-to-text Mean Rank: 3.8 video-to-text Median Rank: 1 video-to-text R@1: 59.8 video-to-text R@10: 92.8 video-to-text R@5: 86.2 |
| video-retrieval-on-msr-vtt-1ka | CAMoE | text-to-video Mean Rank: 12.4 text-to-video Median Rank: 2 text-to-video R@1: 48.8 text-to-video R@10: 85.3 text-to-video R@5: 75.6 video-to-text Mean Rank: 9.9 video-to-text Median Rank: 2 video-to-text R@1: 50.3 video-to-text R@10: 83.8 video-to-text R@5: 74.6 |
| video-retrieval-on-msvd | CAMoE | text-to-video Mean Rank: 8.9 text-to-video Median Rank: 1 text-to-video R@1: 51.8 text-to-video R@10: 87.6 text-to-video R@5: 87.6 video-to-text Mean Rank: 3.1 video-to-text Median Rank: 1 video-to-text R@1: 69.3 video-to-text R@10: 94.6 video-to-text R@5: 90.6 |