3 个月前

基于红外与三维骨骼特征融合的RGB-D动作识别

基于红外与三维骨骼特征融合的RGB-D动作识别

摘要

基于骨架的动作识别面临的一个挑战是,难以区分运动模式相似的动作以及涉及物体的动作。在此方面,来自其他模态的视觉线索能够提供有效帮助。然而,RGB数据对光照条件敏感,在黑暗环境中无法使用。为缓解这一问题并依然利用视觉模态的优势,我们提出了一种模块化网络结构(FUSION),融合骨架数据与红外数据。该方法采用二维卷积神经网络(2D CNN)作为姿态模块,从骨架数据中提取特征;同时使用三维卷积神经网络(3D CNN)作为红外模块,从红外视频中提取视觉线索。随后,将两个模态提取的特征向量进行拼接,并通过多层感知机(MLP)进行联合建模与分析。此外,骨架数据还用于引导红外视频的裁剪,生成围绕动作执行者区域的局部视图,从而在视觉上聚焦红外模块的关注区域。消融实验表明,使用在其他大规模数据集上预训练的网络作为模块,结合数据增强策略,可显著提升动作分类的准确率。同时,本文提出的裁剪策略在性能提升方面也展现出显著贡献。我们在目前规模最大、用于深度摄像头下人体动作识别的NTU RGB+D数据集上对所提方法进行了评估,实验结果达到了当前最优(state-of-the-art)的性能水平。

代码仓库

基准测试

基准方法指标
action-recognition-in-videos-on-ntu-rgbdFUSION (IR+Pose)
Accuracy (CS): 91.8
Accuracy (CV): 94.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于红外与三维骨骼特征融合的RGB-D动作识别 | 论文 | HyperAI超神经