3 个月前

基于骨架的动作识别:多流自适应图卷积网络

基于骨架的动作识别:多流自适应图卷积网络

摘要

图卷积网络(Graph Convolutional Networks, GCNs)作为卷积神经网络(CNNs)在更通用的非欧几里得结构上的推广,在基于骨骼的动作识别任务中取得了显著成果。然而,现有的GCN模型仍存在若干问题。首先,图的拓扑结构通常通过启发式方法设定,且在整个模型的各层及所有输入数据上保持固定,这可能无法适应GCN模型的层次结构特性,也难以应对动作识别任务中数据的多样性。其次,骨骼数据中的二阶信息——即骨骼的长度与方向——在以往研究中较少被充分挖掘,而这些信息天然具有更强的表征能力与判别性,对人类动作识别具有重要意义。针对上述问题,本文提出一种新型的多流注意力增强自适应图卷积神经网络(Multi-Stream Attention-enhanced Adaptive Graph Convolutional Network, MS-AAGCN),用于基于骨骼的动作识别。在所提出的模型中,图的拓扑结构可根据输入数据以统一或个体化的方式,在端到端的训练过程中自适应学习,从而显著提升模型在图结构构建方面的灵活性,并增强其对不同类型数据样本的泛化能力。此外,所提出的自适应图卷积层进一步通过一个时空通道注意力模块进行增强,使模型能够更聚焦于关键关节、关键帧以及重要特征,提升特征提取的有效性。同时,该模型在多流框架下联合建模关节信息、骨骼信息及其运动特征,实现了对多源信息的协同利用,显著提升了识别精度。在两个大规模数据集NTU-RGBD与Kinetics-Skeleton上的大量实验表明,所提方法在性能上显著超越现有最先进方法,展现出优越的识别能力与泛化性能。

代码仓库

iamjeff7/j-va-aagcn
pytorch
GitHub 中提及
lshiwjx/2s-AGCN
官方
pytorch

基准测试

基准方法指标
skeleton-based-action-recognition-on-kineticsJB-AAGCN
Accuracy: 37.4
skeleton-based-action-recognition-on-kineticsMS-AAGCN
Accuracy: 37.8
skeleton-based-action-recognition-on-ntu-rgbdJB-AAGCN
Accuracy (CS): 89.4
Accuracy (CV): 96.0
skeleton-based-action-recognition-on-ntu-rgbdMS-AAGCN
Accuracy (CS): 90.0
Accuracy (CV): 96.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于骨架的动作识别:多流自适应图卷积网络 | 论文 | HyperAI超神经