
摘要
时空图已被广泛应用于基于骨架的动作识别算法中,以建模人类动作动态。为了从这些图中捕捉到稳健的运动模式,长程和多尺度上下文聚合以及时空依赖性建模是强大特征提取器的关键方面。然而,现有方法在实现(1)无偏的多尺度关节关系建模和(2)无障碍的跨时空信息流以捕捉复杂的时空依赖性方面存在局限性。在这项工作中,我们提出了(1)一种简单的多尺度图卷积解耦方法和(2)一种统一的时空图卷积算子,命名为G3D。所提出的多尺度聚合方案解耦了不同邻域节点的重要性,从而实现了有效的长程建模。所提出的G3D模块利用密集的跨时空边作为跳过连接,实现时空图中的直接信息传播。通过结合这些提议,我们开发了一种强大的特征提取器MS-G3D,在此基础上我们的模型在三个大规模数据集上超越了以往的最先进方法:NTU RGB+D 60、NTU RGB+D 120 和 Kinetics Skeleton 400。
代码仓库
kenziyuliu/ms-g3d
官方
pytorch
GitHub 中提及
kennymckormick/pyskl
pytorch
GitHub 中提及
metrics-lab/st-fmri
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-action-recognition-on-assembly101 | MS-G3D | Actions Top-1: 28.7 Object Top-1: 36.3 Verbs Top-1: 65.7 |
| action-recognition-on-h2o-2-hands-and-objects | MS-G3D | Actions Top-1: 50.83 Hand Pose: 3D Object Label: No Object Pose: No RGB: No |
| skeleton-based-action-recognition-on-kinetics | MS-G3D | Accuracy: 38.0 |
| skeleton-based-action-recognition-on-ntu-rgbd | MS-G3D Net | Accuracy (CS): 91.5 Accuracy (CV): 96.2 |
| skeleton-based-action-recognition-on-ntu-rgbd-1 | MS-G3D Net | Accuracy (Cross-Setup): 88.4% Accuracy (Cross-Subject): 86.9% |