
摘要
基于骨骼的动作识别任务由于人体动作在多粒度层次上存在显著差异,仍是以人为中心场景理解中的核心挑战。现有方法通常采用单一神经表示来处理不同运动模式,但在训练数据有限的情况下,难以有效捕捉细粒度的动作类别。为解决上述问题,本文提出一种新型的多粒度时空图网络,用于基于骨骼的动作分类,该方法能够联合建模粗粒度与细粒度的骨骼运动模式。为此,我们设计了一种双头图网络结构,包含两个交错连接的分支,可高效、有效地在两种时空分辨率下提取特征。此外,网络引入跨头通信机制,实现两个分支表示之间的相互增强。我们在三个大规模数据集(NTU RGB+D 60、NTU RGB+D 120 和 Kinetics-Skeleton)上进行了大量实验,结果表明,所提方法在所有基准测试中均达到当前最优性能,充分验证了该方法的有效性。
代码仓库
tailin1009/dualhead-network
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skeleton-based-action-recognition-on-kinetics | DualHead-Net | Accuracy: 38.4 |
| skeleton-based-action-recognition-on-ntu-rgbd | DualHead-Net | Accuracy (CS): 92.0 Accuracy (CV): 96.6 |
| skeleton-based-action-recognition-on-ntu-rgbd-1 | DualHead-Net | Accuracy (Cross-Setup): 89.3 Accuracy (Cross-Subject): 88.2 Ensembled Modalities: 4 |