
摘要
从一个人的动作图像中,我们可以轻松推测出该人在最近过去和未来的三维运动。这是因为我们拥有一个通过观察人类运动的视觉序列而获得的心理模型,该模型描述了三维人体动力学。本文提出了一种框架,可以通过对视频中的图像特征进行简单但有效的时序编码来学习人类三维动态的表示。在测试阶段,从视频中提取的已学习时序表示可以生成平滑的三维网格预测。从单个图像出发,我们的模型不仅可以恢复当前的三维网格,还可以预测其过去的和未来的三维运动。我们的方法设计为可以从带有二维姿态注释的视频中以半监督的方式学习。尽管标注数据总是有限的,但互联网上每天都会上传数百万条未标注的视频。在这项工作中,我们通过使用现成的二维姿态检测器获取伪真实值(pseudo-ground truth)二维姿态来训练模型,从而利用这一大规模未标注的数据源。实验结果表明,增加更多带有伪真实值二维姿态的视频可以单调地提高三维预测性能。我们在最近具有挑战性的“野生环境下的三维姿态”数据集上评估了我们的模型——Human Mesh and Motion Recovery (HMMR),并在无需任何微调的情况下,在三维预测任务上取得了最先进的性能。项目网站包含视频、代码和数据,网址为 https://akanazawa.github.io/human_dynamics/。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | HMMR (T=20) | Acceleration Error: 15.2 MPJPE: 116.5 PA-MPJPE: 72.6 |
| 3d-human-pose-estimation-on-human36m | HMMR (T=20) | Average MPJPE (mm): 83.7 PA-MPJPE: 56.9 |