
摘要
卷积神经网络(ConvNets)在许多计算机视觉任务中,尤其是在基于图像的识别方面,最近表现出令人鼓舞的性能。然而,如何有效地将ConvNets应用于基于序列的数据仍然是一个开放的问题。本文提出了一种有效且简单的方法,通过将3D骨架序列中的时空信息编码为关节轨迹及其动态特性,并将其转化为图像中的颜色分布,生成三幅2D图像,称为关节轨迹图(Joint Trajectory Maps, JTM),并采用ConvNets学习用于人体动作识别的判别特征。这种基于图像的表示方法使我们能够在不重新训练网络的情况下微调现有的ConvNets模型以对骨架序列进行分类。三个JTM分别在三个正交平面上生成,彼此提供互补的信息。通过三个JTM的多分数融合进一步提高了最终的识别效果。所提出的方法在四个公开基准数据集上进行了评估:大规模NTU RGB+D数据集、MSRC-12 Kinect手势数据集(MSRC-12)、G3D数据集和UTD多模态人体动作数据集(UTD-MHAD),并取得了最先进的结果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skeleton-based-action-recognition-on-gaming | CNN | Accuracy: 96.0 |