6 个月前

摘要

在复杂环境与多变场景下，基于RGB的行人动作识别方法存在一定的脆弱性，而骨骼模态则可有效弥补这一不足。因此，融合RGB与骨骼模态的动作识别方法近年来受到越来越多关注。然而，现有方法的识别性能仍不理想，主要受限于采样策略、建模方式及模态融合机制的优化不足，且计算开销较大。为此，本文提出一种轻量级的密集-稀疏互补网络（Dense-Sparse Complementary Network, DSCNet），旨在以较低的计算成本充分挖掘RGB与骨骼模态之间的互补信息，从而实现具有竞争力的动作识别性能。具体而言，我们根据RGB模态与骨骼模态各自的优势，分别采用密集采样与稀疏采样策略。进一步地，利用骨骼信息作为引导，精准裁剪RGB帧中人物的关键活动区域，显著抑制了背景干扰。此外，本文提出一种短时运动提取模块（Short-Term Motion Extraction Module, STMEM），在将RGB帧输入主干网络前，对密集采样的帧进行压缩，有效避免了计算量的急剧增长。同时，设计了一种稀疏多尺度时空卷积神经网络（Sparse Multi-Scale Spatial–Temporal Convolutional Neural Network, Sparse-MSSTNet），用于高效建模稀疏骨骼序列。大量实验结果表明，所提方法能够有效融合RGB与骨骼模态的互补信息，显著提升识别准确率。DSCNet在NTU RGB+D 60、NTU RGB+D 120、PKU-MMD、UAV-human、IKEA ASM以及Northwest-UCLA等多个公开数据集上均取得了具有竞争力的性能，且相比现有方法显著降低了计算成本。代码已开源，地址为：https://github.com/Maxchengqin/DSCNet。

源 PDF 查看代码