3 个月前

基于高斯对比提议学习的弱监督时序句子定位

基于高斯对比提议学习的弱监督时序句子定位

摘要

时间句子定位(Temporal Sentence Grounding)旨在从未剪辑的视频中检测出与自然语言查询最相关的时间片段。由于标注时间边界既费时又具有主观性,弱监督方法近年来受到越来越多关注。然而,现有大多数弱监督方法通过滑动窗口生成候选片段,这些候选片段与内容无关,质量较低。此外,这些方法通常从其他视频中随机采集正负视觉-语言样本对进行模型训练,忽略了同一视频内部高度相似的混淆片段,导致模型难以区分语义相近的场景。为此,本文提出对比候选生成方法(Contrastive Proposal Learning, CPL),以克服上述局限。具体而言,我们采用多个可学习的高斯函数,在同一视频内部生成正负候选片段,从而有效表征长视频中的多种事件。进一步地,我们设计了一种可控的“由易到难”负样本挖掘策略,从同一视频中提取负样本,有助于缓解模型优化难度,并使CPL能够准确区分高度混淆的视觉场景。实验结果表明,本文方法在Charades-STA和ActivityNet Captions两个基准数据集上均达到当前最优性能。代码与模型已开源,地址为:https://github.com/minghangz/cpl。

基准测试

基准方法指标
temporal-sentence-grounding-on-charades-staCPL (Weak, MViT-K400-Pretrain-feature, evaluated by AdaFocus)
R1@0.5: 47.8
R1@0.7: 21.8
R5@0.5: 84.6
R5@0.7: 50.4
temporal-sentence-grounding-on-charades-staCPL (Weak, I3D-K400-Pretrain-feature, evaluated by AdaFocus)
R1@0.5: 39.6
R1@0.7: 18.6
R5@0.5: 81.4
R5@0.7: 49.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于高斯对比提议学习的弱监督时序句子定位 | 论文 | HyperAI超神经