
摘要
近期研究已证实,3D卷积神经网络(3D CNNs)在视频动作识别任务中取得了显著成功。然而,大多数3D模型仍基于RGB图像流和光流(optical flow)流构建,难以充分挖掘人体姿态动态这一关键信息——而姿态动态是建模人类动作的重要线索。为弥补这一不足,本文提出一种简洁高效的Pose-Action 3D机器(Pose-Action 3D Machine, PA3D),能够在统一的3D框架内有效编码多种姿态模态,从而学习到具有时空特性的姿态表示,用于动作识别。具体而言,我们引入了一种新型的时间维度姿态卷积(temporal pose convolution),用于在时间维度上聚合多帧的空间姿态信息。与传统的时序卷积不同,该操作能够显式地学习对动作识别具有判别性的姿态运动模式。在三个主流基准数据集(JHMDB、HMDB和Charades)上的大量实验表明,PA3D在性能上超越了当前主流的姿态驱动方法。此外,PA3D与近期先进的3D CNN模型(如I3D)具有高度互补性,通过多流融合策略,在所有测试数据集上均取得了当前最优(state-of-the-art)的识别性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-charades | PA3D + (GCN + I3D + NL I3D) | MAP: 41 |
| skeleton-based-action-recognition-on-j-hmdb | PA3D | Accuracy (RGB+pose): 69.5 |
| skeleton-based-action-recognition-on-j-hmdb | PA3D+RPAN | Accuracy (RGB+pose): 86.1 |