3 个月前

PA3D:用于视频识别的姿态-动作三维机器

PA3D:用于视频识别的姿态-动作三维机器

摘要

近期研究已证实,3D卷积神经网络(3D CNNs)在视频动作识别任务中取得了显著成功。然而,大多数3D模型仍基于RGB图像流和光流(optical flow)流构建,难以充分挖掘人体姿态动态这一关键信息——而姿态动态是建模人类动作的重要线索。为弥补这一不足,本文提出一种简洁高效的Pose-Action 3D机器(Pose-Action 3D Machine, PA3D),能够在统一的3D框架内有效编码多种姿态模态,从而学习到具有时空特性的姿态表示,用于动作识别。具体而言,我们引入了一种新型的时间维度姿态卷积(temporal pose convolution),用于在时间维度上聚合多帧的空间姿态信息。与传统的时序卷积不同,该操作能够显式地学习对动作识别具有判别性的姿态运动模式。在三个主流基准数据集(JHMDB、HMDB和Charades)上的大量实验表明,PA3D在性能上超越了当前主流的姿态驱动方法。此外,PA3D与近期先进的3D CNN模型(如I3D)具有高度互补性,通过多流融合策略,在所有测试数据集上均取得了当前最优(state-of-the-art)的识别性能。

基准测试

基准方法指标
action-classification-on-charadesPA3D + (GCN + I3D + NL I3D)
MAP: 41
skeleton-based-action-recognition-on-j-hmdbPA3D
Accuracy (RGB+pose): 69.5
skeleton-based-action-recognition-on-j-hmdbPA3D+RPAN
Accuracy (RGB+pose): 86.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PA3D:用于视频识别的姿态-动作三维机器 | 论文 | HyperAI超神经