3 个月前

双模态注意力增强的文本-视频检索与三元组部分边距对比学习

双模态注意力增强的文本-视频检索与三元组部分边距对比学习

摘要

近年来,网络视频的爆发式增长使得文本-视频检索在视频过滤、推荐和搜索等场景中变得日益重要且广受欢迎。文本-视频检索的目标是将相关文本或视频排在不相关内容之前。该任务的核心在于精确度量文本与视频之间的跨模态相似性。近年来,对比学习方法在文本-视频检索任务中展现出良好的性能,大多数方法通过构建正负样本对来学习文本与视频的表示。然而,现有方法对困难负样本的关注不足,且缺乏对不同层次语义相似性的建模能力。针对上述两个问题,本文提出两种新颖技术以改进对比学习方法。首先,为充分挖掘困难样本以增强模型的判别能力,本文提出一种新型双模态注意力增强模块(Dual-Modal Attention-Enhanced Module, DMAE),该模块能够基于文本和视觉线索自动挖掘困难负样本。进一步引入一种面向负样本的InfoNCE损失(Negative-aware InfoNCE, NegNCE),可自适应识别所有困难负样本,并在训练损失中显式强化其影响。其次,本文指出三元组样本相较于成对样本更能有效建模细粒度的语义相似性。为此,提出一种新型的三元组部分边界对比学习模块(Triplet Partial Margin Contrastive Learning, TPM-CL),该模块通过自动生成与匹配文本-视频对相关的细粒度困难负样本,构建部分顺序三元组样本。TPM-CL设计了一种具有跨模态交互机制的自适应标记掩码策略,以捕捉细微的语义差异。大量实验结果表明,所提出的模型在四个广泛使用的文本-视频检索数据集(包括MSR-VTT、MSVD、DiDeMo和ActivityNet)上均显著优于现有方法,验证了其有效性与优越性。

代码仓库

alipay/Ant-Multi-Modal-Framework
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-retrieval-on-activitynetDMAE (ViT-B/32)
text-to-video Mean Rank: 5.3
text-to-video Median Rank: 1.0
text-to-video R@1: 53.4
text-to-video R@10: 89.2
text-to-video R@5: 80.7
video-retrieval-on-didemoDMAE (ViT-B/32)
text-to-video Mean Rank: 10.5
text-to-video Median Rank: 1.0
text-to-video R@1: 52.7
text-to-video R@10: 86.6
text-to-video R@5: 79.3
video-retrieval-on-msr-vtt-1kaDMAE (ViT-B/16)
text-to-video Mean Rank: 10.0
text-to-video Median Rank: 1.0
text-to-video R@1: 55.5
text-to-video R@10: 87.1
text-to-video R@5: 79.4
video-to-text Mean Rank: 7.3
video-to-text Median Rank: 1.0
video-to-text R@1: 55.7
video-to-text R@10: 87.2
video-to-text R@5: 79.2
video-retrieval-on-msvdDMAE (ViT-B/32)
text-to-video Mean Rank: 9.8
text-to-video Median Rank: 2.0
text-to-video R@1: 48.7
text-to-video R@10: 86.3
text-to-video R@5: 78.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
双模态注意力增强的文本-视频检索与三元组部分边距对比学习 | 论文 | HyperAI超神经