3 个月前

文本-视频检索中的解耦表征学习

文本-视频检索中的解耦表征学习

摘要

跨模态交互是文本-视频检索(Text-Video Retrieval, TVR)中的关键组成部分,然而目前对影响交互计算的不同因素如何影响性能的研究仍较为有限。本文首次对交互范式进行了深入分析,发现其计算过程可分解为两个核心部分:不同粒度下的交互内容,以及用于区分语义相同但模态不同的样本对的匹配函数。此外,我们观察到,采用单向量表示和隐式密集函数会显著限制模型的优化能力。基于上述发现,本文提出一种解耦框架,以捕捉序列化且分层的表示结构。首先,考虑到文本与视频输入天然具有的序列结构,我们设计了一种加权词元级交互(Weighted Token-wise Interaction, WTI)模块,用于解耦内容信息,并自适应地挖掘成对样本间的相关性。该交互机制能够为序列输入构建更优的解耦流形结构。其次,我们引入通道去相关正则化(Channel DeCorrelation Regularization, CDCR),以最小化对比向量各分量之间的冗余性,从而促进分层表示的学习。我们在多个基准数据集上验证了该解耦表示的有效性,实验结果表明,所提方法在MSR-VTT、MSVD、VATEX、LSMDC、ActivityNet和DiDeMo等多个数据集上的R@1指标上,分别显著超越CLIP4Clip达+2.9%、+3.1%、+7.9%、+2.3%、+2.8%和+6.5%。

代码仓库

foolwood/DRL
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-retrieval-on-didemoDRL
text-to-video Mean Rank: 11.5
text-to-video Median Rank: 2.0
text-to-video R@1: 49.0
text-to-video R@10: 84.5
text-to-video R@5: 76.5
video-to-text Mean Rank: 7.9
video-to-text Median Rank: 2
video-to-text R@1: 49.9
video-to-text R@10: 83.3
video-retrieval-on-msr-vtt-1kaDRL
text-to-video Mean Rank: 11.4
text-to-video Median Rank: 1
text-to-video R@1: 53.3
text-to-video R@10: 87.6
text-to-video R@5: 80.3
video-to-text Mean Rank: 7.6
video-to-text Median Rank: 1.0
video-to-text R@1: 56.2
video-to-text R@10: 87.4
video-to-text R@5: 79.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
文本-视频检索中的解耦表征学习 | 论文 | HyperAI超神经