3 个月前

基于RGB与骨骼模态的人体动作识别的密集-稀疏互补网络

基于RGB与骨骼模态的人体动作识别的密集-稀疏互补网络

摘要

在复杂环境与多变场景下,基于RGB的行人动作识别方法存在一定的脆弱性,而骨骼模态则可有效弥补这一不足。因此,融合RGB与骨骼模态的动作识别方法近年来受到越来越多关注。然而,现有方法的识别性能仍不理想,主要受限于采样策略、建模方式及模态融合机制的优化不足,且计算开销较大。为此,本文提出一种轻量级的密集-稀疏互补网络(Dense-Sparse Complementary Network, DSCNet),旨在以较低的计算成本充分挖掘RGB与骨骼模态之间的互补信息,从而实现具有竞争力的动作识别性能。具体而言,我们根据RGB模态与骨骼模态各自的优势,分别采用密集采样与稀疏采样策略。进一步地,利用骨骼信息作为引导,精准裁剪RGB帧中人物的关键活动区域,显著抑制了背景干扰。此外,本文提出一种短时运动提取模块(Short-Term Motion Extraction Module, STMEM),在将RGB帧输入主干网络前,对密集采样的帧进行压缩,有效避免了计算量的急剧增长。同时,设计了一种稀疏多尺度时空卷积神经网络(Sparse Multi-Scale Spatial–Temporal Convolutional Neural Network, Sparse-MSSTNet),用于高效建模稀疏骨骼序列。大量实验结果表明,所提方法能够有效融合RGB与骨骼模态的互补信息,显著提升识别准确率。DSCNet在NTU RGB+D 60、NTU RGB+D 120、PKU-MMD、UAV-human、IKEA ASM以及Northwest-UCLA等多个公开数据集上均取得了具有竞争力的性能,且相比现有方法显著降低了计算成本。代码已开源,地址为:https://github.com/Maxchengqin/DSCNet。

基准测试

基准方法指标
action-recognition-in-videos-on-ntu-rgbdDSCNet (RGB + Pose)
Accuracy (CS): 97.4
Accuracy (CV): 99.4
action-recognition-in-videos-on-ntu-rgbd-120DSCNet (RGB + Pose)
Accuracy (Cross-Setup): 96.7
Accuracy (Cross-Subject): 95.6
action-recognition-in-videos-on-pku-mmdDSCNet (RGB + Pose)
X-Sub: 97.4
X-View: 98.8
skeleton-based-action-recognition-on-n-uclaDSCNet (RGB + Pose)
Accuracy: 99.1
skeleton-based-action-recognition-on-uavDSCNet (RGB + Pose)
CSv1(%): 47.3
CSv2(%): 71.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于RGB与骨骼模态的人体动作识别的密集-稀疏互补网络 | 论文 | HyperAI超神经