
摘要
基于骨骼的动作识别的传统深度学习方法通常将骨骼结构表示为坐标序列或伪图像,输入到循环神经网络(RNN)或卷积神经网络(CNN)中,但这类方法无法显式利用关节之间的自然连接关系。近年来,图卷积网络(Graph Convolutional Networks, GCNs)作为一种将CNN推广至更通用非欧几里得结构的模型,在基于骨骼的动作识别任务中取得了显著性能提升。然而,现有GCN的图结构通常由人工预先设定且在各网络层间保持固定,这可能并非最优选择,尤其在面对具有层次结构的CNN架构时。此外,早期的GCN主要依赖一阶信息(即关节坐标),而对二阶信息(如骨骼的长度与方向)的利用则相对不足。针对上述问题,本文提出一种新颖的双流非局部图卷积网络。该模型中每一层的图结构可通过反向传播(BP)算法实现统一学习或独立学习,从而提升了模型的灵活性与通用性。同时,本文设计了一种双流架构,能够同时建模关节与骨骼的特征信息,进一步提升了识别性能。在两个大规模数据集NTU-RGB+D和Kinetics上的大量实验表明,所提模型的性能显著优于当前最先进方法。
代码仓库
benedekrozemberczki/pytorch_geometric_temporal
pytorch
GitHub 中提及
ELKYang/2s-AGCN-paddle
paddle
iamjeff7/j-va-aagcn
pytorch
GitHub 中提及
lshiwjx/2s-AGCN
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-action-recognition-on-assembly101 | 2s-AGCN | Actions Top-1: 26.7 Object Top-1: 33.8 Verbs Top-1: 64.4 |
| skeleton-based-action-recognition-on-uav | 2S-AGCN | CSv1(%): 34.84 CSv2(%): 66.68 |