
摘要
在视频中进行人体姿态估计时,如何利用帧间的时间信息至关重要。本文提出了一种肢体时间流图(Temporal Flow Maps for Limbs, TML)和多步长方法来估计和跟踪人体姿态。所提出的肢体时间流图是描述肢体运动的单位向量。我们构建了一个网络,以端到端的方式学习空间信息和时间信息。在空间网络部分,回归了诸如关节热图和部位亲和力场等空间信息;而在时间网络部分,则回归了TML。此外,我们还提出了一种数据增强方法,以便更好地学习各种类型的TML。所提出的多步长方法通过在定义范围内随机选择两帧来扩展数据。我们在PoseTrack 2017和2018数据集上展示了该方法能够高效地估计和跟踪人体姿态。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| pose-tracking-on-posetrack2017 | TML++ (MIPAL) | MOTA: 54.46 mAP: 68.78 |
| pose-tracking-on-posetrack2018 | TML++ (MIPAL) | MOTA: 54.86 mAP: 67.81 |