
摘要
手势动作识别是动作识别的一个特殊分支,广泛应用于人机交互、虚拟现实以及生活记录系统等领域。构建能够适应此类异构动作域的动作分类器极具挑战性,因为同一应用中的不同动作之间差异极为细微,而跨域之间的变化却十分显著(例如,虚拟现实与生活记录系统之间的差异)。本文提出了一种新颖的基于骨骼的手部运动表征模型,以应对这一难题。所提出的框架不依赖于特定的应用领域或摄像头拍摄视角,具有良好的通用性。在单一领域内的动作分类(即域内分类)任务中,本方法在多个知名的手势动作识别基准测试上表现优于或至少相当当前最先进的方法。更重要的是,在处理未曾在训练中出现过的动作域及摄像头视角(即域间分类)时,所提出的框架仍能实现与域内最先进方法相媲美的性能。实验结果充分验证了该框架的鲁棒性与泛化能力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skeleton-based-action-recognition-on-first | TCN-Summ | 1:1 Accuracy: 95.93 1:3 Accuracy: 92.9 3:1 Accuracy: 96.76 Cross-person Accuracy: 88.70 |
| skeleton-based-action-recognition-on-shrec | TCN-Summ | 14 gestures accuracy: 93.57 28 gestures accuracy: 91.43 |