
摘要
本文通过引入两种新型模块——图顶点特征编码器(Graph Vertex Feature Encoder, GVFE)和空洞分层时序卷积网络(Dilated Hierarchical Temporal Convolutional Network, DH-TCN),对基于骨架的动作识别的时空图卷积网络(Spatial-Temporal Graph Convolutional Network, ST-GCN)进行了扩展。一方面,GVFE模块通过将原始骨架数据编码至新的特征空间,学习适用于动作识别的顶点特征;另一方面,DH-TCN模块利用分层空洞卷积结构,有效捕捉动作序列中的短期与长期时序依赖关系。在具有挑战性的NTU RGB-D 60和NTU RGB-D 120数据集上进行了实验验证。结果表明,所提出方法在保持与当前最先进方法相当性能的同时,显著减少了网络层数与参数量,从而降低了训练所需时间与内存开销。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-ntu-rgbd-120 | ST-GCN + AS-GCN w/DH-TCN | Accuracy (Cross-Setup): 78.3 Accuracy (Cross-Subject): 79.2 |
| skeleton-based-action-recognition-on-ntu-rgbd | GVFE + AS-GCN with DH-TCN | Accuracy (CS): 85.3 Accuracy (CV): 92.8 |
| skeleton-based-action-recognition-on-ntu-rgbd-1 | GVFE + AS-GCN with DH-TCN | Accuracy (Cross-Setup): 79.8% Accuracy (Cross-Subject): 78.3% |