3 个月前

通过多流语料对齐与双Softmax损失提升视频-文本检索

通过多流语料对齐与双Softmax损失提升视频-文本检索

摘要

将大规模预训练模型CLIP应用于视频-文本检索任务(Video-Text Retrieval, VTR)已成为当前的新趋势,其性能已超越以往的VTR方法。然而,由于视频与文本在结构和内容上存在显著异质性,基于CLIP的现有方法在训练阶段容易出现过拟合问题,导致检索性能相对欠佳。为此,本文提出一种多流语料对齐网络——单门控专家混合模型(Multi-stream Corpus Alignment network with Single-gate Mixture-of-Experts, CAMoE),并设计了一种新型双Softmax损失函数(Dual Softmax Loss, DSL),以有效应对上述两类异质性问题。CAMoE采用专家混合(Mixture-of-Experts, MoE)机制,从多个视角提取视频的表征,涵盖动作、实体、场景等不同维度,随后将其与文本中对应的语义部分进行对齐。在该阶段,我们对特征提取模块与特征对齐模块进行了大规模探索与优化。DSL损失函数旨在避免传统对比学习方法中存在的“单向最优匹配”问题。通过引入批次内每对样本的内在先验信息,DSL作为相似性矩阵的修正器,实现双向最优匹配,显著提升匹配质量。该损失函数实现极为简便,仅需一行代码即可集成,但性能提升显著。实验结果表明,所提出的CAMoE与DSL均具备强大的有效性,二者各自在MSR-VTT、MSVD和LSMDC等多个基准数据集上均能达到当前最优(State-of-the-Art, SOTA)水平。进一步地,当两者协同使用时,性能获得大幅提升,在MSR-VTT数据集上,R@1指标相较此前SOTA方法提升约4.6%。

代码仓库

starmemda/camow
官方
pytorch
GitHub 中提及
starmemda/CAMoE
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-retrieval-on-activitynetCAMoE
text-to-video Mean Rank: 6.3
text-to-video Median Rank: 1
text-to-video R@1: 51.0
text-to-video R@10: 87.6
text-to-video R@5: 77.7
video-retrieval-on-didemoCAMoE
text-to-video Mean Rank: 16.3
text-to-video Median Rank: 2.0
text-to-video R@1: 43.8
text-to-video R@10: 79.9
text-to-video R@5: 71.4
video-to-text Mean Rank: 10.2
video-to-text Median Rank: 2
video-to-text R@1: 45.5
video-to-text R@10: 80.5
video-retrieval-on-lsmdcCAMoE
text-to-video Mean Rank: 54.4
text-to-video R@1: 25.9
text-to-video R@10: 53.7
text-to-video R@5: 46.1
video-retrieval-on-msr-vttCAMoE
text-to-video Mean Rank: 42.6
text-to-video Median Rank: 3
text-to-video R@1: 32.9
text-to-video R@10: 68.4
text-to-video R@5: 58.3
video-to-text Mean Rank: 3.8
video-to-text Median Rank: 1
video-to-text R@1: 59.8
video-to-text R@10: 92.8
video-to-text R@5: 86.2
video-retrieval-on-msr-vtt-1kaCAMoE
text-to-video Mean Rank: 12.4
text-to-video Median Rank: 2
text-to-video R@1: 48.8
text-to-video R@10: 85.3
text-to-video R@5: 75.6
video-to-text Mean Rank: 9.9
video-to-text Median Rank: 2
video-to-text R@1: 50.3
video-to-text R@10: 83.8
video-to-text R@5: 74.6
video-retrieval-on-msvdCAMoE
text-to-video Mean Rank: 8.9
text-to-video Median Rank: 1
text-to-video R@1: 51.8
text-to-video R@10: 87.6
text-to-video R@5: 87.6
video-to-text Mean Rank: 3.1
video-to-text Median Rank: 1
video-to-text R@1: 69.3
video-to-text R@10: 94.6
video-to-text R@5: 90.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过多流语料对齐与双Softmax损失提升视频-文本检索 | 论文 | HyperAI超神经