3 个月前

基于骨架的动作识别的多尺度时空卷积神经网络

基于骨架的动作识别的多尺度时空卷积神经网络

摘要

骨骼数据在动作识别中蕴含着重要信息,因其对复杂背景和光照变化具有较强的鲁棒性。近年来,由于卷积神经网络(CNN)或循环神经网络(RNN)在提取骨骼数据时空特征方面能力有限,其识别准确率表现相对不足。为此,一系列基于图卷积网络(GCN)的方法取得了显著进展,并逐渐成为主流。然而,GCN-based方法的计算开销较大,部分方法的计算量甚至超过100 GFLOPs,这与骨骼数据本身高度紧凑的特性相悖。为此,本文提出一种新型的多尺度时空卷积(Multi-Scale Spatial-Temporal Convolution, MSST)模块,旨在隐式地融合不同尺度下时空表示之间的互补优势。与以往将骨骼数据转换为伪图像的CNN方法,或采用复杂图卷积操作不同,本文方法充分利用时间与空间维度上的多尺度卷积,有效捕捉骨骼关节点间的全面依赖关系。在此基础上,构建了统一的MSST模块,提出一种多尺度时空卷积神经网络(MSSTNet),用于提取高层次的时空语义特征以实现动作识别。与以往通过增加计算代价提升性能的方法不同,MSSTNet具有模型轻量化、推理速度快的优势,易于部署。此外,本文将MSSTNet集成于四流架构中,融合多模态数据,显著提升了识别准确率。在NTU RGB+D 60、NTU RGB+D 120、UAV-Human以及Northwestern-UCLA等数据集上的实验结果表明,所提出的MSSTNet在取得与当前最先进方法相当甚至更优的性能的同时,计算成本大幅降低,展现出卓越的效率与实用性。

基准测试

基准方法指标
skeleton-based-action-recognition-on-n-uclaMSSTNet
Accuracy: 95.3
skeleton-based-action-recognition-on-ntu-rgbdMSSTNet
Accuracy (CS): 92.6
Accuracy (CV): 97.8
skeleton-based-action-recognition-on-ntu-rgbd-1MSSTNet
Accuracy (Cross-Setup): 88.3
Accuracy (Cross-Subject): 87.4
skeleton-based-action-recognition-on-uavMSSTNet
CSv1(%): 43.0
CSv2(%): 70.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于骨架的动作识别的多尺度时空卷积神经网络 | 论文 | HyperAI超神经