6 个月前

摘要

基于骨架的动作识别在图卷积网络（GCNs）发展的推动下取得了显著进展。然而，近期的研究往往构建复杂的学习机制，存在冗余训练问题，且在处理长时间序列时长期面临性能瓶颈。为解决上述问题，本文提出了一种新型高效模型——时空图卷积ConvNeXt（Temporal-Spatio Graph ConvNeXt, TSGCNeXt），旨在探索长时序骨架序列的高效学习机制。首先，本文提出一种结构简洁的新型图学习机制——动态-静态分离多图卷积（Dynamic-Static Separate Multi-graph Convolution, DS-SMG），通过聚合多个独立拓扑结构的图特征，有效避免了动态卷积过程中节点信息被忽略的问题。其次，设计了一种图卷积训练加速机制，通过优化动态图学习中的反向传播计算，实现了55.08%的训练速度提升。最后，TSGCNeXt重构了GCN的整体网络结构，引入三个时空学习模块，显著提升了对长时序特征的建模能力。在大规模数据集NTU RGB+D 60和NTU RGB+D 120上的实验表明，TSGCNeXt在单流网络架构下优于现有主流方法。进一步地，结合EMA（指数移动平均）模型进行多流融合后，TSGCNeXt达到了当前最优（SOTA）性能水平。在NTU RGB+D 120数据集的跨被试（cross-subject）与跨设置（cross-set）测试中，准确率分别达到90.22%和91.74%，验证了模型在复杂场景下的强大泛化能力。

源 PDF