4 个月前

基于空间和时间变换器的3D人体姿态估计

基于空间和时间变换器的3D人体姿态估计

摘要

变压器架构已成为自然语言处理领域的首选模型,并且现在正被引入到计算机视觉任务中,如图像分类、目标检测和语义分割。然而,在人体姿态估计领域,卷积架构仍然占据主导地位。在本研究中,我们提出了PoseFormer,这是一种完全基于变压器的方法,用于视频中的3D人体姿态估计,而不涉及卷积架构。受到近期视觉变压器发展的启发,我们设计了一种时空变压器结构,以全面建模每帧内的人体关节关系以及跨帧的时间相关性,从而输出中心帧的精确3D人体姿态。我们对我们的方法在两个流行的标准基准数据集上进行了定量和定性的评估:Human3.6M和MPI-INF-3DHP。大量实验表明,PoseFormer在这两个数据集上均达到了最先进的性能。代码可在以下网址获取:https://github.com/zczcwh/PoseFormer

代码仓库

zczcwh/DL-HPE
GitHub 中提及
zczcwh/PoseFormer
官方
pytorch
GitHub 中提及
thuxyz19/test
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-human36mPoseFormer (f=81)
Average MPJPE (mm): 44.3
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: No
3d-human-pose-estimation-on-human36mPoseFormer (f=81, GT)
Average MPJPE (mm): 31.3
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: Yes
3d-human-pose-estimation-on-humaneva-iPoseFormer
Mean Reconstruction Error (mm): 21.6
3d-human-pose-estimation-on-mpi-inf-3dhpPoseFormer (9 frames)
AUC: 56.4
MPJPE: 77.1
PCK: 88.6
monocular-3d-human-pose-estimation-on-human3PoseFormer (T=81)
2D detector: CPN
Average MPJPE (mm): 44.3
Frames Needed: 81

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供