
摘要
当前最先进的基于骨架的动作识别方法大多基于递归神经网络(RNN)。在本文中,我们提出了一种新颖的基于卷积神经网络(CNN)的框架,用于动作分类和检测。原始骨架坐标以及骨架运动直接输入到CNN中进行标签预测。设计了一种新型的骨架变换模块,可以自动重新排列并选择重要的骨架关节。通过一个简单的7层网络,我们在NTU RGB+D数据集的验证集上获得了89.3%的准确率。对于未剪辑视频中的动作检测,我们开发了一个窗口提议网络来提取时间片段提议,这些提议在同一网络中进一步进行分类。在最近的PKU-MMD数据集上,我们达到了93.7%的平均精度均值(mAP),大幅超过了基线水平。
代码仓库
hikvision-research/skelact
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skeleton-based-action-recognition-on-ntu-rgbd | CNN+Motion+Trans | Accuracy (CS): 83.2 Accuracy (CV): 89.3 |
| skeleton-based-action-recognition-on-pku-mmd | Li et al. [[Li et al.2017b]] | mAP@0.50 (CS): 90.4 mAP@0.50 (CV): 93.7 |