6 个月前

摘要

将大规模预训练模型CLIP应用于视频-文本检索任务（Video-Text Retrieval, VTR）已成为当前的新趋势，其性能已超越以往的VTR方法。然而，由于视频与文本在结构和内容上存在显著异质性，基于CLIP的现有方法在训练阶段容易出现过拟合问题，导致检索性能相对欠佳。为此，本文提出一种多流语料对齐网络——单门控专家混合模型（Multi-stream Corpus Alignment network with Single-gate Mixture-of-Experts, CAMoE），并设计了一种新型双Softmax损失函数（Dual Softmax Loss, DSL），以有效应对上述两类异质性问题。CAMoE采用专家混合（Mixture-of-Experts, MoE）机制，从多个视角提取视频的表征，涵盖动作、实体、场景等不同维度，随后将其与文本中对应的语义部分进行对齐。在该阶段，我们对特征提取模块与特征对齐模块进行了大规模探索与优化。DSL损失函数旨在避免传统对比学习方法中存在的“单向最优匹配”问题。通过引入批次内每对样本的内在先验信息，DSL作为相似性矩阵的修正器，实现双向最优匹配，显著提升匹配质量。该损失函数实现极为简便，仅需一行代码即可集成，但性能提升显著。实验结果表明，所提出的CAMoE与DSL均具备强大的有效性，二者各自在MSR-VTT、MSVD和LSMDC等多个基准数据集上均能达到当前最优（State-of-the-Art, SOTA）水平。进一步地，当两者协同使用时，性能获得大幅提升，在MSR-VTT数据集上，R@1指标相较此前SOTA方法提升约4.6%。

源 PDF