4 个月前

D3G:利用高斯先验和一瞥注释探索时间句子定位

D3G:利用高斯先验和一瞥注释探索时间句子定位

摘要

时间句子定位(Temporal Sentence Grounding, TSG)旨在根据给定的自然语言查询从未剪辑的视频中定位特定时刻。近期的研究表明,弱监督方法在性能上仍与全监督方法存在较大差距,而后者需要大量的时间戳注释。本研究的目标是在减少注释成本的同时,保持与全监督方法相当的时间句子定位任务性能。为此,我们探讨了一种最近提出的基于一瞥监督的时间句子定位任务,该任务仅需为每个查询提供单帧注释(称为一瞥注释)。在此框架下,我们提出了一种基于动态高斯先验的一瞥注释时间句子定位框架(Dynamic Gaussian prior based Grounding framework with Glance annotation, D3G),该框架包括一个语义对齐组对比学习模块(Semantic Alignment Group Contrastive Learning, SA-GCL)和一个动态高斯先验调整模块(Dynamic Gaussian prior Adjustment, DGA)。具体而言,SA-GCL通过联合利用高斯先验和语义一致性,在二维时间图中采样可靠的正例时刻,有助于在联合嵌入空间中对齐正例的句子-时刻对。此外,为了缓解由一瞥注释引起的注释偏差并处理包含多个事件的复杂查询,我们提出了DGA模块,该模块动态调整分布以逼近目标时刻的真实情况。我们在三个具有挑战性的基准数据集上进行了广泛的实验,验证了所提出的D3G的有效性。实验结果表明,D3G大幅超越了现有的最先进弱监督方法,并缩小了与全监督方法之间的性能差距。代码可在https://github.com/solicucu/D3G 获取。

代码仓库

solicucu/d3g
官方
pytorch

基准测试

基准方法指标
temporal-sentence-grounding-on-charades-staD3G (Semi-weak, MViT-K400-Pretrain-feature, evaluated by AdaFocus)
R1@0.5: 46.0
R1@0.7: 20.2
R5@0.5: 83.1
R5@0.7: 50.2
temporal-sentence-grounding-on-charades-staD3G (Semi-weak, I3D-K400-Pretrain-feature, evaluated by AdaFocus)
R1@0.5: 41.7
R1@0.7: 18.8
R5@0.5: 78.2
R5@0.7: 48.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
D3G:利用高斯先验和一瞥注释探索时间句子定位 | 论文 | HyperAI超神经