
摘要
在这项工作中,我们展示了基于扩张时间卷积的全卷积模型可以有效地从视频中估计3D姿态。我们还引入了一种简单而有效的半监督训练方法——反投影(back-projection),该方法利用了未标记的视频数据。具体而言,我们首先对未标记视频预测2D关键点,然后估计3D姿态,最后将这些3D姿态反投影回输入的2D关键点。在有监督设置下,我们的全卷积模型在Human3.6M数据集上比文献中的最佳结果减少了6毫米的平均关节位置误差,相当于误差降低了11%,并且该模型在HumanEva-I数据集上也表现出显著的改进。此外,使用反投影方法进行的实验表明,在标记数据稀缺的半监督设置下,该方法明显优于之前的最先进结果。代码和模型可在https://github.com/facebookresearch/VideoPose3D 获取。
代码仓库
open-mmlab/mmpose
pytorch
philipNoonan/OPVP3D
pytorch
GitHub 中提及
facebookresearch/VideoPose3D
官方
pytorch
GitHub 中提及
garyzhao/SemGCN
pytorch
GitHub 中提及
zhimingzo/modulated-gcn
pytorch
GitHub 中提及
sjtuxcx/ITES
pytorch
GitHub 中提及
happyvictor008/High-order-GNN-LF-iter
pytorch
GitHub 中提及
raymondyeh07/chirality_nets
pytorch
GitHub 中提及
ailingzengzzz/Split-and-Recombine-Net
pytorch
GitHub 中提及
vnmr/JointVideoPose3D
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | VideoPose3D (T=243) | Average MPJPE (mm): 46.8 Multi-View or Monocular: Monocular PA-MPJPE: 36.5 Using 2D ground-truth joints: No |
| 3d-human-pose-estimation-on-human36m | VideoPose3D (T=1) | Average MPJPE (mm): 51.8 Multi-View or Monocular: Monocular PA-MPJPE: 40 Using 2D ground-truth joints: No |
| monocular-3d-human-pose-estimation-on-human3 | VideoPose3D (T=243) | 2D detector: CPN Average MPJPE (mm): 46.8 Frames Needed: 243 Need Ground Truth 2D Pose: No Use Video Sequence: Yes |
| weakly-supervised-3d-human-pose-estimation-on | VideoPose3D (T=243) | Number of Frames Per View: 243 |
| weakly-supervised-3d-human-pose-estimation-on | Pavllo et al. | 3D Annotations: S1 Average MPJPE (mm): 64.7 Number of Views: 1 |