
摘要
将骨骼结构与图卷积网络相结合,在人体动作识别任务中已取得显著性能提升。然而,当前研究主要集中在设计用于表示骨骼数据的基本图结构,其嵌入特征仅包含基础的拓扑信息,难以从骨骼数据中学习更为系统化的表征。针对这一局限性,本文提出一种新型框架,将15种不同的图嵌入特征统一整合至图卷积网络中,用于人体动作识别,旨在充分挖掘图结构信息,有效区分动作中的关键关节点、骨骼连接以及身体部位,而非局限于单一特征或特定领域。此外,本文深入探究了如何筛选最优的骨骼结构图特征,以进一步提升动作识别性能。同时,通过挖掘骨骼序列的拓扑信息,进一步增强了多流框架下的识别效果。更重要的是,所采用的统一图特征通过训练过程中的自适应方法进行提取,进一步提升了模型表现。所提出的模型在三个大规模数据集(NTU-RGB+D、Kinetics 和 SYSU-3D)上进行了验证,性能超越现有最先进方法。综上所述,本研究通过统一多种图嵌入特征,推动了人体动作识别领域向更系统化、更全面的研究方向发展。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skeleton-based-action-recognition-on-kinetics | CGCN | Accuracy: 37.5 |
| skeleton-based-action-recognition-on-ntu-rgbd | CGCN | Accuracy (CS): 90.3 Accuracy (CV): 96.4 |