
摘要
当前,基于深度学习的三维人体动作识别模型的判别能力日益增强。随着近期以三维骨骼为表征的三维人体动作表示方法的复兴,相关研究在质量与进展速度上均取得了显著突破。然而,当前最先进的基于学习的三维人体动作识别方法内部机制仍大多处于“黑箱”状态。本文提出采用一类新型模型——时间卷积神经网络(Temporal Convolutional Neural Networks, TCN),用于三维人体动作识别。相较于广泛使用的基于LSTM的循环神经网络模型,在输入为可解释数据(如三维骨骼)的前提下,TCN能够显式地学习出易于理解的时空表征,从而实现对三维人体动作的可解释性识别。本文详细阐述了在设计TCN时如何兼顾可解释性,并展示了如何利用该模型的可解释特性构建出强大的三维动作识别方法。通过本研究,我们旨在迈向一种更易于理解、解释和分析的时空建模方法。所提出的模型Res-TCN在目前最大的三维人体动作识别数据集NTU-RGBD上取得了当前最优的识别性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multimodal-activity-recognition-on-ev-action | TCN (Skeleton Kinect) | Accuracy: 80.1 |
| multimodal-activity-recognition-on-ev-action | TCN (Skeleton Vicon) | Accuracy: 64.1 |
| skeleton-based-action-recognition-on-ntu-rgbd | TCN | Accuracy (CS): 74.3 Accuracy (CV): 83.1 |
| skeleton-based-action-recognition-on-varying | Res-TCN | Accuracy (AV I): 48% Accuracy (AV II): 68% Accuracy (CS): 63% Accuracy (CV I): 14% Accuracy (CV II): 48% |