
摘要
当前最先进的动作识别方法大多采用双流架构,分别独立处理外观信息与运动信息。本文提出,将两者联合考虑能够为动作识别提供更为丰富的信息。为此,我们提出一种新颖的表征方式,能够优雅地编码特定语义关键点的运动特征。我们以人体关节作为这些关键点,并将该表征命名为Pose moTion(PoTion)。具体而言,我们首先使用当前最先进的姿态估计算法,在视频每一帧中提取人体关节的热力图(heatmaps),随后通过时间维度上的聚合,构建PoTion表征。该聚合过程通过对每一帧的热力图根据其在视频片段中的相对时间进行着色,并将所有帧的着色结果相加实现。最终得到的固定尺寸表征可直接用于动作分类,且适用于浅层卷积神经网络。实验结果表明,PoTion在性能上优于其他先进的姿态表征方法。此外,PoTion与传统的外观流和运动流具有良好的互补性。当将其与近期提出的双流I3D方法[5]相结合时,我们在JHMDB、HMDB和UCF101数据集上均取得了当前最优的识别性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-charades | PoTion + (GCN + I3D + NL I3D) | MAP: 40.8 |
| action-recognition-in-videos-on-ucf101 | I3D + PoTion | 3-fold Accuracy: 29.3 |
| skeleton-based-action-recognition-on-j-hmdb | Potion | Accuracy (RGB+pose): 90.4 Accuracy (pose): 67.9 |
| skeleton-based-action-recognition-on-j-hmdb | I3D + Potion | Accuracy (RGB+pose): 85.5 |
| skeleton-based-action-recognition-on-jhmdb-2d | PoTion | Average accuracy of 3 splits: 67.9 No. parameters: - |