3 个月前

WHAM:基于世界感知的高精度3D动作重建人类

WHAM:基于世界感知的高精度3D动作重建人类

摘要

从视频中估计三维人体运动的研究近年来取得了显著进展,但现有方法仍存在若干关键局限。首先,大多数方法在相机坐标系中估计人体姿态。其次,以往在全局坐标系中估计人体运动的工作通常假设地面为平面,导致产生足部滑动等不真实结果。第三,目前精度最高的方法依赖于计算开销巨大的优化流程,因而仅适用于离线应用。最后,令人意外的是,现有的基于视频的方法在精度上反而不如单帧方法。为解决上述问题,我们提出了WHAM(World-grounded Humans with Accurate Motion),一种能够高效且准确地从视频中重建全局坐标系下三维人体运动的方法。WHAM利用动作捕捉数据学习将二维关键点序列提升至三维空间,并融合视频特征,有效整合运动上下文与视觉信息。同时,WHAM结合从SLAM方法中估计得到的相机角速度与人体运动信息,实现对人体全局轨迹的精确估计。此外,我们引入了一种考虑接触状态的轨迹优化方法,使WHAM能够在多样场景中准确捕捉人体运动,例如上下楼梯等复杂动作。在多个真实场景(in-the-wild)基准测试中,WHAM在性能上全面超越现有所有三维人体运动恢复方法。相关代码将向研究社区开放,供学术研究使用,访问地址为:http://wham.is.tue.mpg.de/

代码仓库

yohanshin/WHAM
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-3dpwWHAM (ViT)
MPJPE: 57.8
MPVPE: 68.7
PA-MPJPE: 35.9
3d-human-pose-estimation-on-emdbWHAM (ViT)
Average MPJPE (mm): 79.7
Average MPJPE-PA (mm): 50.4
Average MVE (mm): 94.4
3d-human-pose-estimation-on-richWHAM (ViT)
MPJPE: 80
MPVPE: 91.2
PA-MPJPE: 44.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
WHAM:基于世界感知的高精度3D动作重建人类 | 论文 | HyperAI超神经