6 个月前

摘要

骨骼数据在动作识别中蕴含着重要信息，因其对复杂背景和光照变化具有较强的鲁棒性。近年来，由于卷积神经网络（CNN）或循环神经网络（RNN）在提取骨骼数据时空特征方面能力有限，其识别准确率表现相对不足。为此，一系列基于图卷积网络（GCN）的方法取得了显著进展，并逐渐成为主流。然而，GCN-based方法的计算开销较大，部分方法的计算量甚至超过100 GFLOPs，这与骨骼数据本身高度紧凑的特性相悖。为此，本文提出一种新型的多尺度时空卷积（Multi-Scale Spatial-Temporal Convolution, MSST）模块，旨在隐式地融合不同尺度下时空表示之间的互补优势。与以往将骨骼数据转换为伪图像的CNN方法，或采用复杂图卷积操作不同，本文方法充分利用时间与空间维度上的多尺度卷积，有效捕捉骨骼关节点间的全面依赖关系。在此基础上，构建了统一的MSST模块，提出一种多尺度时空卷积神经网络（MSSTNet），用于提取高层次的时空语义特征以实现动作识别。与以往通过增加计算代价提升性能的方法不同，MSSTNet具有模型轻量化、推理速度快的优势，易于部署。此外，本文将MSSTNet集成于四流架构中，融合多模态数据，显著提升了识别准确率。在NTU RGB+D 60、NTU RGB+D 120、UAV-Human以及Northwestern-UCLA等数据集上的实验结果表明，所提出的MSSTNet在取得与当前最先进方法相当甚至更优的性能的同时，计算成本大幅降低，展现出卓越的效率与实用性。

源 PDF 查看代码