
摘要
变压器架构已成为自然语言处理领域的首选模型,并且现在正被引入到计算机视觉任务中,如图像分类、目标检测和语义分割。然而,在人体姿态估计领域,卷积架构仍然占据主导地位。在本研究中,我们提出了PoseFormer,这是一种完全基于变压器的方法,用于视频中的3D人体姿态估计,而不涉及卷积架构。受到近期视觉变压器发展的启发,我们设计了一种时空变压器结构,以全面建模每帧内的人体关节关系以及跨帧的时间相关性,从而输出中心帧的精确3D人体姿态。我们对我们的方法在两个流行的标准基准数据集上进行了定量和定性的评估:Human3.6M和MPI-INF-3DHP。大量实验表明,PoseFormer在这两个数据集上均达到了最先进的性能。代码可在以下网址获取:https://github.com/zczcwh/PoseFormer
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | PoseFormer (f=81) | Average MPJPE (mm): 44.3 Multi-View or Monocular: Monocular Using 2D ground-truth joints: No |
| 3d-human-pose-estimation-on-human36m | PoseFormer (f=81, GT) | Average MPJPE (mm): 31.3 Multi-View or Monocular: Monocular Using 2D ground-truth joints: Yes |
| 3d-human-pose-estimation-on-humaneva-i | PoseFormer | Mean Reconstruction Error (mm): 21.6 |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | PoseFormer (9 frames) | AUC: 56.4 MPJPE: 77.1 PCK: 88.6 |
| monocular-3d-human-pose-estimation-on-human3 | PoseFormer (T=81) | 2D detector: CPN Average MPJPE (mm): 44.3 Frames Needed: 81 |