
摘要
手势识别(HGR)在各种现实场景中实现了直观的人机交互。然而,现有的框架往往难以满足实际HGR应用所需的实时性要求。本研究介绍了一种基于骨架的鲁棒框架,用于动态手势识别,该框架将动态手势的识别简化为静态图像分类任务,从而有效降低了硬件和计算需求。我们的框架采用数据级融合技术,将来自动态手势的3D骨架数据编码为静态RGB时空图像。该框架结合了一种专门的端到端集成调优器(e2eET)多流卷积神经网络(CNN)架构,该架构在优化数据表示之间的语义连接的同时,最小化了计算需求。通过在五个基准数据集(SHREC'17、DHG-14/28、FPHA、LMDHG和CNR)上进行测试,该框架展示了与现有最先进方法相当的性能。此外,通过在标准消费级PC硬件上的部署,该框架还证明了其支持实时HGR应用的能力,在实际环境中表现出低延迟和极低的资源占用。这一框架的成功部署突显了其在虚拟/增强现实、环境智能和辅助技术等领域提升实时应用潜力的可能性,为动态手势识别提供了一个可扩展且高效的解决方案。
代码仓库
outsiders17711/e2eet-skeleton-based-hgr-using-data-level-fusion
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| hand-gesture-recognition-on-dhg-14 | e2eET | Accuracy: 95.83 |
| hand-gesture-recognition-on-dhg-28 | e2eET | Accuracy: 92.38 |
| hand-gesture-recognition-on-shrec-2017 | e2eET | 14 Gestures Accuracy: 97.86 28 Gestures Accuracy: 95.36 |
| skeleton-based-action-recognition-on-first | e2eET | 1:1 Accuracy: 91.83 |
| skeleton-based-action-recognition-on-sbu | e2eET | Accuracy: 93.96 |