
摘要
基于骨架的动作识别在图卷积网络(GCNs)发展的推动下取得了显著进展。然而,近期的研究往往构建复杂的学习机制,存在冗余训练问题,且在处理长时间序列时长期面临性能瓶颈。为解决上述问题,本文提出了一种新型高效模型——时空图卷积ConvNeXt(Temporal-Spatio Graph ConvNeXt, TSGCNeXt),旨在探索长时序骨架序列的高效学习机制。首先,本文提出一种结构简洁的新型图学习机制——动态-静态分离多图卷积(Dynamic-Static Separate Multi-graph Convolution, DS-SMG),通过聚合多个独立拓扑结构的图特征,有效避免了动态卷积过程中节点信息被忽略的问题。其次,设计了一种图卷积训练加速机制,通过优化动态图学习中的反向传播计算,实现了55.08%的训练速度提升。最后,TSGCNeXt重构了GCN的整体网络结构,引入三个时空学习模块,显著提升了对长时序特征的建模能力。在大规模数据集NTU RGB+D 60和NTU RGB+D 120上的实验表明,TSGCNeXt在单流网络架构下优于现有主流方法。进一步地,结合EMA(指数移动平均)模型进行多流融合后,TSGCNeXt达到了当前最优(SOTA)性能水平。在NTU RGB+D 120数据集的跨被试(cross-subject)与跨设置(cross-set)测试中,准确率分别达到90.22%和91.74%,验证了模型在复杂场景下的强大泛化能力。
代码仓库
vvhj/tsgcnext
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skeleton-based-action-recognition-on-ntu-rgbd-1 | TSGCNeXt | Accuracy (Cross-Setup): 91.7 Accuracy (Cross-Subject): 90.2 Ensembled Modalities: 4 |
| skeleton-based-action-recognition-on-ntu-rgbd-1 | TSGCNeXT | Accuracy (Cross-Setup): 90.3 Accuracy (Cross-Subject): 89.1 Ensembled Modalities: 4 |