
摘要
时间句子定位(Temporal Sentence Grounding, TSG)旨在根据给定的自然语言查询从未剪辑的视频中定位特定时刻。近期的研究表明,弱监督方法在性能上仍与全监督方法存在较大差距,而后者需要大量的时间戳注释。本研究的目标是在减少注释成本的同时,保持与全监督方法相当的时间句子定位任务性能。为此,我们探讨了一种最近提出的基于一瞥监督的时间句子定位任务,该任务仅需为每个查询提供单帧注释(称为一瞥注释)。在此框架下,我们提出了一种基于动态高斯先验的一瞥注释时间句子定位框架(Dynamic Gaussian prior based Grounding framework with Glance annotation, D3G),该框架包括一个语义对齐组对比学习模块(Semantic Alignment Group Contrastive Learning, SA-GCL)和一个动态高斯先验调整模块(Dynamic Gaussian prior Adjustment, DGA)。具体而言,SA-GCL通过联合利用高斯先验和语义一致性,在二维时间图中采样可靠的正例时刻,有助于在联合嵌入空间中对齐正例的句子-时刻对。此外,为了缓解由一瞥注释引起的注释偏差并处理包含多个事件的复杂查询,我们提出了DGA模块,该模块动态调整分布以逼近目标时刻的真实情况。我们在三个具有挑战性的基准数据集上进行了广泛的实验,验证了所提出的D3G的有效性。实验结果表明,D3G大幅超越了现有的最先进弱监督方法,并缩小了与全监督方法之间的性能差距。代码可在https://github.com/solicucu/D3G 获取。
代码仓库
solicucu/d3g
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| temporal-sentence-grounding-on-charades-sta | D3G (Semi-weak, MViT-K400-Pretrain-feature, evaluated by AdaFocus) | R1@0.5: 46.0 R1@0.7: 20.2 R5@0.5: 83.1 R5@0.7: 50.2 |
| temporal-sentence-grounding-on-charades-sta | D3G (Semi-weak, I3D-K400-Pretrain-feature, evaluated by AdaFocus) | R1@0.5: 41.7 R1@0.7: 18.8 R5@0.5: 78.2 R5@0.7: 48.0 |