4 个月前

STAR-Net:基于时空激活重投影的动作识别

STAR-Net:基于时空激活重投影的动作识别

摘要

尽管深度相机和惯性传感器在人体动作识别中得到了广泛应用,但在许多场景下,由于成本或环境限制,这些传感模式并不实用。因此,最近的研究兴趣集中在利用低成本、易获取的RGB相机通过深度卷积神经网络进行人体动作识别。然而,迄今为止提出的许多用于动作识别的深度卷积神经网络都严重依赖于从图像数据中直接学习全局外观特征,导致网络架构复杂度高、计算成本昂贵且难以训练。为了降低网络复杂度并提高性能,我们引入了时空激活重投影(Spatio-Temporal Activation Reprojection, STAR)的概念。具体而言,我们使用3D卷积堆栈在空间和时间上重新投影由人体姿态估计层生成的时空激活。在UTD-MHAD和J-HMDB数据集上的实验结果表明,基于所提出的STAR框架(我们将其称为STAR-Net)的端到端架构在单环境和小规模应用中表现出色。在UTD-MHAD数据集上,STAR-Net的表现优于几种使用更丰富数据模态(如深度和惯性传感器)的方法。

基准测试

基准方法指标
multimodal-activity-recognition-on-utd-mhadSTAR-Net
Accuracy (CS): 90
skeleton-based-action-recognition-on-j-hmdbSTAR-Net
Accuracy (RGB+pose): 64.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
STAR-Net:基于时空激活重投影的动作识别 | 论文 | HyperAI超神经