4 个月前

负样本的重要性:时间定位中度量学习的复兴

负样本的重要性:时间定位中度量学习的复兴

摘要

时间定位旨在将与给定自然语言查询在语义上对齐的视频片段进行定位。现有的方法通常在融合表示上应用检测或回归管道,研究重点在于设计复杂的预测头或融合策略。相反,我们将时间定位视为度量学习问题,提出了一种互匹配网络(Mutual Matching Network, MMN),直接在联合嵌入空间中建模语言查询和视频片段之间的相似性。这一新的度量学习框架从两个新方面充分利用了负样本:在互匹配方案中构建跨模态负样本对,以及在不同视频之间挖掘负样本对。这些新的负样本通过跨模态互匹配增强了两种模态的联合表示学习,以最大化它们之间的互信息。实验表明,我们的MMN在四个视频定位基准测试中取得了与现有最先进方法相当的竞争性能。基于MMN,我们提出了第三届PIC研讨会HC-STVG挑战赛的获胜解决方案。这表明,度量学习仍然是一个有前景的方法,通过捕捉联合嵌入空间中的本质跨模态相关性来实现时间定位。代码可在https://github.com/MCG-NJU/MMN 获取。

代码仓库

mcg-nju/mmn
官方
pytorch
GitHub 中提及
aim3-ruc/youmakeup_challenge2022
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-sentence-grounding-on-charades-staMMN (Full, I3D-K400-Pretrain-feature, evaluated by AdaFocus)
R1@0.5: 49.4
R1@0.7: 29.8
R5@0.5: 85.8
R5@0.7: 60.5
temporal-sentence-grounding-on-charades-staMMN (Full, MViT-K400-Pretrain-feature, evaluated by AdaFocus)
R1@0.5: 55.2
R1@0.7: 32.2
R5@0.5: 88.3
R5@0.7: 62.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
负样本的重要性:时间定位中度量学习的复兴 | 论文 | HyperAI超神经