4 个月前

基于上下文的时空视频定位

基于上下文的时空视频定位

摘要

时空视频定位(Spatio-temporal Video Grounding,简称STVG)任务的目标是在给定文本查询的情况下,为特定实例在视频中定位一个时空管。尽管已有进展,但当前方法由于从文本中获取的对象信息不足,容易受到视频中的干扰物或严重对象外观变化的影响,导致性能下降。为了解决这一问题,我们提出了一种新的框架——上下文引导的STVG(Context-Guided STVG,简称CG-STVG),该框架挖掘视频中对象的判别性实例上下文,并将其作为目标定位的补充指导。CG-STVG的关键在于两个特别设计的模块:实例上下文生成(Instance Context Generation,简称ICG)模块和实例上下文精炼(Instance Context Refinement,简称ICR)模块。ICG模块专注于发现实例的视觉上下文信息(包括外观和运动),而ICR模块则旨在通过消除上下文中无关甚至有害的信息来改进来自ICG的实例上下文。在定位过程中,ICG和ICR模块被部署在Transformer架构的每个解码阶段,用于学习实例上下文。具体而言,从一个解码阶段学到的实例上下文会被传递到下一个阶段,并作为包含丰富且判别性的对象特征的指导信息,以增强解码特征中的目标意识。这反过来又有利于生成更好的新实例上下文,最终提高定位精度。与现有方法相比,CG-STVG不仅利用了文本查询中的对象信息,还结合了挖掘出的实例视觉上下文提供的指导,从而实现更准确的目标定位。我们在三个基准数据集上进行了实验,包括HCSTVG-v1/v2和VidSTG。实验结果表明,在m_tIoU和m_vIoU指标上,CG-STVG均达到了新的最先进水平,展示了其有效性。代码将在https://github.com/HengLan/CGSTVG发布。

代码仓库

henglan/cgstvg
官方
pytorch
GitHub 中提及
shaohuadong2021/dplnet
pytorch
GitHub 中提及

基准测试

基准方法指标
spatio-temporal-video-grounding-on-hc-stvg1CG-STVG
m_vIoU: 38.4
vIoU@0.3: 61.5
vIoU@0.5: 36.3
spatio-temporal-video-grounding-on-hc-stvg2CG-STVG
Val m_vIoU: 39.5
Val vIoU@0.3: 64.5
Val vIoU@0.5: 36.3
spatio-temporal-video-grounding-on-vidstgCG-STVG
Declarative m_vIoU: 34.0
Declarative vIoU@0.3: 47.7
Declarative vIoU@0.5: 33.1
Interrogative m_vIoU: 29.0
Interrogative vIoU@0.3: 40.5
Interrogative vIoU@0.5: 27.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于上下文的时空视频定位 | 论文 | HyperAI超神经