4 个月前

利用时间上下文进行野外3D人体姿态估计

利用时间上下文进行野外3D人体姿态估计

摘要

我们提出了一种基于束调整的算法,用于从单目视频中恢复准确的3D人体姿态和网格模型。与以往仅在单帧上操作的算法不同,我们证明在整个序列中重建一个人可以提供额外的约束条件,从而解决模糊性问题。这是因为视频通常会提供一个人的多个视角,而整体身体形状不会改变,3D位置的变化也较为缓慢。我们的方法不仅在标准的动作捕捉数据集(如Human 3.6M)上表现出定量改进,而且在具有挑战性的野外数据集(如Kinetics)上也有显著提升。在此基础上,我们构建了一个新的数据集,包含来自Kinetics的超过300万帧YouTube视频,并自动生成了这些视频中的3D姿态和网格模型。通过在这个数据集上重新训练单帧3D姿态估计器,我们在真实世界和动作捕捉数据上的准确性均有所提高,这在3DPW和HumanEVA数据集上的评估结果中得到了验证。

代码仓库

deepmind/Temporal-3D-Pose-Kinetics
官方
tf
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-3dpwBundle Adjustment
PA-MPJPE: 72.2
3d-human-pose-estimation-on-human36mBundle Adjustment
Average MPJPE (mm): 77.8
PA-MPJPE: 41.6
3d-human-pose-estimation-on-human36mBundle Adjustment (GTi)
Average MPJPE (mm): 63.3
monocular-3d-human-pose-estimation-on-human3Bundle Adjustment
Frames Needed: 190
Need Ground Truth 2D Pose: No
Use Video Sequence: Yes
monocular-3d-human-pose-estimation-on-human3Bundle Adjustment (GTi)
Average MPJPE (mm): 63.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用时间上下文进行野外3D人体姿态估计 | 论文 | HyperAI超神经