摘要
图卷积网络(Graph Convolutional Networks, GCNs)已被广泛应用于基于骨架的动作识别任务,并取得了显著成果。然而,现有基于GCN的方法主要依赖于骨架关节的局部上下文信息来构建自适应图以实现特征聚合,这限制了其对涉及身体多部位协同运动的复杂动作的理解能力。若能基于关节的全局上下文信息构建自适应图,则有望突破这一局限。为此,本文提出一种新型的基于骨架的动作识别方法——多阶段自适应图卷积网络(Multi-stage Adaptive Graph Convolution Network, MSA-GCN)。该方法由两个核心模块组成:多阶段自适应图卷积模块(MSA-GC)与时空多尺度变换器模块(Temporal Multi-Scale Transformer, TMST),二者协同作用,有效捕捉骨架数据中的复杂时空模式。具体而言,MSA-GC模块在所有时间序列上同时探索关节的局部与全局上下文信息,构建动态自适应图结构,从而增强对关节间复杂且细微关系的理解能力。另一方面,TMST模块融合了门控多阶段时间卷积(Gated Multi-stage Temporal Convolution, GMSTC)与时间多头自注意力机制(Temporal Multi-Head Self-Attention, TMHSA),能够有效捕捉动作序列中的全局时间特征,并同时建模长期与短期依赖关系。在多个基准数据集(包括NTU RGB+D 60、NTU RGB+D 120以及Northwestern-UCLA)上的大量实验表明,MSA-GCN在动作识别任务中达到了当前最优性能,充分验证了其在基于骨架动作识别中的有效性与先进性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skeleton-based-action-recognition-on-ntu-rgbd | MSA-GCN | Accuracy (CS): 93.6 Accuracy (CV): 97.4 Ensembled Modalities: 6 |