
摘要
由于大规模骨架数据集的可用性,3D人体动作识别最近引起了计算机视觉领域的关注。许多研究工作集中在基于骨架关节的空间结构将骨架数据编码为骨架图像表示,其中序列的时间动态被编码为列的变化,而每一帧的空间结构则表示为矩阵的行。为了进一步改进这些表示方法,我们提出了一种新的骨架图像表示方法,作为卷积神经网络(CNNs)的输入,命名为SkeleMotion。该方法通过显式计算骨架关节的幅度和方向值来编码时间动态。采用不同的时间尺度计算运动值,以在表示中聚合更多的时间动态,使其能够捕捉到动作中的长距离关节交互,并过滤掉噪声运动值。实验结果表明,所提出的表示方法在3D动作识别方面具有有效性,在NTU RGB+D 120数据集上的表现优于现有最先进方法。
代码仓库
carloscaetano/skeleton-images
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-ntu-rgbd | Skelemotion + Yang et al. (Skeleton only) | Accuracy (CS): 76.5 Accuracy (CV): 84.7 |
| action-recognition-in-videos-on-ntu-rgbd-120 | Skelemotion + Yang et al. (skeleton only) | Accuracy (Cross-Setup): 66.9 Accuracy (Cross-Subject): 67.7 |
| skeleton-based-action-recognition-on-ntu-rgbd | Skelemotion + Yang et al. | Accuracy (CS): 76.5 Accuracy (CV): 84.7 |
| skeleton-based-action-recognition-on-ntu-rgbd-1 | SkeleMotion + Yang et al. (2018) | Accuracy (Cross-Setup): 66.9% Accuracy (Cross-Subject): 67.7% |
| skeleton-based-action-recognition-on-ntu-rgbd-1 | SkeleMotion [Magnitude-Orientation (TSA)] | Accuracy (Cross-Setup): 63.0% Accuracy (Cross-Subject): 62.9% |