
摘要
图卷积网络(Graph Convolutional Networks, GCNs)在基于骨骼的动作识别任务中得到了广泛应用,并取得了显著成果。我们认为,基于骨骼的动作识别关键在于骨骼在帧间的动态呈现,因此本文聚焦于图卷积网络如何学习不同的拓扑结构,并在全局时序与局部时序范围内有效聚合关节特征。为此,本文提出了一种基于通道级拓扑优化的图卷积方法——通道级拓扑图卷积(Channel-wise Topology Graph Convolution, CTR-GCN)。通过将CTR-GCN与两个关节间交叉注意力模块相结合,能够有效捕捉人体上肢与下肢、手部与足部之间的关系特征。为进一步建模骨骼在帧间变化的动态特性,我们设计了时序注意力变换器(Temporal Attention Transformers),以高效提取骨骼序列的时序特征。该模块能够学习人体骨骼序列的时序依赖关系。最后,我们将提取出的时序特征进行多层感知机(MLP)融合与分类。由此构建的图卷积网络被命名为空间-时序有效肢体间交叉注意力变换器(Spatial-Temporal Effective Body-part Cross Attention Transformer, STEP-CATFormer),在NTU RGB+D与NTU RGB+D 120数据集上均表现出卓越的性能。相关代码与模型已开源,地址为:https://github.com/maclong01/STEP-CATFormer。
代码仓库
maclong01/STEP-CATFormer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skeleton-based-action-recognition-on-ntu-rgbd | STEP-CATFormer | Accuracy (CS): 93.2 Accuracy (CV): 97.3 Ensembled Modalities: 4 |
| skeleton-based-action-recognition-on-ntu-rgbd-1 | STEP-CATFormer | Accuracy (Cross-Setup): 91.2 Accuracy (Cross-Subject): 90.0 Ensembled Modalities: 4 |