
摘要
近年来,基于三维骨骼数据的人体动作识别(3D action recognition)因其简洁性、鲁棒性以及视角不变的表示能力而日益受到关注。针对该问题的最新研究提出采用基于循环神经网络(RNN)的学习方法,以建模时间域中的上下文依赖关系。本文将这一思想拓展至时空域,实现对输入数据在空间与时间两个维度上共同隐藏的动作相关信息源的联合分析。受人体骨骼图结构的启发,我们进一步提出一种基于树结构的更高效遍历方法。为应对三维骨骼数据中存在的噪声与遮挡问题,我们在LSTM中引入了一种新型门控机制,用以学习序列输入数据的可靠性,并据此动态调整其对存储于记忆单元中的长期上下文信息更新的影响。所提出的方法在四个具有挑战性的三维人体动作分析基准数据集上均取得了当前最优的性能表现。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skeleton-based-action-recognition-on-ntu-rgbd | Spatio-Temporal LSTM | Accuracy (CS): 69.2 Accuracy (CV): 77.7 |
| skeleton-based-action-recognition-on-ntu-rgbd | ST-LSTM | Accuracy (CS): 61.70 Accuracy (CV): 75.50 |
| skeleton-based-action-recognition-on-ntu-rgbd-1 | Spatio-Temporal LSTM | Accuracy (Cross-Setup): 57.9% Accuracy (Cross-Subject): 55.7% |
| skeleton-based-action-recognition-on-sbu | ST-LSTM + Trust Gate | Accuracy: 93.3% |