3 个月前

G-TAD:用于时间动作检测的子图定位

G-TAD:用于时间动作检测的子图定位

摘要

时间动作检测(Temporal Action Detection)是视频理解领域中一项基础且具有挑战性的任务。视频上下文信息是有效检测动作的关键线索,然而现有方法主要关注时间上下文,忽视了语义上下文以及其他重要的上下文特性。本文提出一种图卷积网络(Graph Convolutional Network, GCN)模型,能够自适应地将多层级语义上下文融入视频特征,并将时间动作检测建模为子图定位问题。具体而言,我们将视频片段建模为图节点,片段之间的相关性作为边,将与上下文相关联的动作定义为目标子图。基于图卷积作为基本操作,我们设计了一种名为 GCNeXt 的 GCN 模块,该模块通过聚合节点的上下文信息来学习节点特征,并动态更新图中的边结构。为进一步实现子图定位,我们还设计了 SGAlign 层,用于将每个子图嵌入到欧几里得空间中。大量实验表明,G-TAD 能够在无需额外监督的情况下有效挖掘视频上下文信息,并在两个主流检测基准上取得了当前最优性能:在 ActivityNet-1.3 数据集上达到 34.09% 的平均 mAP;在 THUMOS14 数据集上,结合提议处理方法后,在 IoU@0.5 下达到 51.6% 的性能。G-TAD 的代码已公开,可访问 https://github.com/frostinassiky/gtad。

代码仓库

812618101/TAL-Demo
GitHub 中提及
coolbay/VSGN
pytorch
GitHub 中提及
handhand123/prsa-net
pytorch
GitHub 中提及
musicalOffering/sola
pytorch
GitHub 中提及
carpedkm/G_TAD_customizing
pytorch
GitHub 中提及
Frostinassiky/gtad
官方
pytorch
GitHub 中提及
sauradip/fewshotQAT
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-action-localization-on-activitynetG-TAD
mAP: 34.09
mAP IOU@0.5: 50.36
mAP IOU@0.75: 34.60
mAP IOU@0.95: 9.02
temporal-action-localization-on-epic-kitchensG-TAD (verb)
Avg mAP (0.1-0.5): 9.4
mAP IOU@0.1: 12.1
mAP IOU@0.2: 11.0
mAP IOU@0.3: 9.4
mAP IOU@0.4: 8.1
mAP IOU@0.5: 6.5
temporal-action-localization-on-fineactionG-TAD (i3d feature)
mAP: 9.06
mAP IOU@0.5: 13.74
mAP IOU@0.75: 8.83
mAP IOU@0.95: 3.06
temporal-action-localization-on-thumos14G-TAD
mAP IOU@0.5: 40.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
G-TAD:用于时间动作检测的子图定位 | 论文 | HyperAI超神经