4 个月前

基于时间卷积和半监督训练的视频中3D人体姿态估计

基于时间卷积和半监督训练的视频中3D人体姿态估计

摘要

在这项工作中,我们展示了基于扩张时间卷积的全卷积模型可以有效地从视频中估计3D姿态。我们还引入了一种简单而有效的半监督训练方法——反投影(back-projection),该方法利用了未标记的视频数据。具体而言,我们首先对未标记视频预测2D关键点,然后估计3D姿态,最后将这些3D姿态反投影回输入的2D关键点。在有监督设置下,我们的全卷积模型在Human3.6M数据集上比文献中的最佳结果减少了6毫米的平均关节位置误差,相当于误差降低了11%,并且该模型在HumanEva-I数据集上也表现出显著的改进。此外,使用反投影方法进行的实验表明,在标记数据稀缺的半监督设置下,该方法明显优于之前的最先进结果。代码和模型可在https://github.com/facebookresearch/VideoPose3D 获取。

代码仓库

philipNoonan/OPVP3D
pytorch
GitHub 中提及
facebookresearch/VideoPose3D
官方
pytorch
GitHub 中提及
garyzhao/SemGCN
pytorch
GitHub 中提及
zhimingzo/modulated-gcn
pytorch
GitHub 中提及
sjtuxcx/ITES
pytorch
GitHub 中提及
raymondyeh07/chirality_nets
pytorch
GitHub 中提及
vnmr/JointVideoPose3D
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-human36mVideoPose3D (T=243)
Average MPJPE (mm): 46.8
Multi-View or Monocular: Monocular
PA-MPJPE: 36.5
Using 2D ground-truth joints: No
3d-human-pose-estimation-on-human36mVideoPose3D (T=1)
Average MPJPE (mm): 51.8
Multi-View or Monocular: Monocular
PA-MPJPE: 40
Using 2D ground-truth joints: No
monocular-3d-human-pose-estimation-on-human3VideoPose3D (T=243)
2D detector: CPN
Average MPJPE (mm): 46.8
Frames Needed: 243
Need Ground Truth 2D Pose: No
Use Video Sequence: Yes
weakly-supervised-3d-human-pose-estimation-onVideoPose3D (T=243)
Number of Frames Per View: 243
weakly-supervised-3d-human-pose-estimation-onPavllo et al.
3D Annotations: S1
Average MPJPE (mm): 64.7
Number of Views: 1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供