4 个月前

Jointformer:单帧提升变换器及其误差预测与修正用于三维人体姿态估计

Jointformer:单帧提升变换器及其误差预测与修正用于三维人体姿态估计

摘要

单目3D人体姿态估计技术有潜力大幅增加人体运动数据的可用性。目前,表现最佳的单图像2D-3D提升模型通常使用图卷积网络(GCNs),这些网络通常需要一些手动输入来定义不同身体关节之间的关系。我们提出了一种基于变压器的新方法,该方法利用更为通用的自注意力机制来学习由表示关节的一系列标记组成的序列中的这些关系。我们发现,使用中间监督以及堆叠编码器之间的残差连接有助于提高性能。此外,我们建议在多任务学习框架中引入误差预测可以改善性能,使网络能够根据其置信度进行补偿。我们进行了广泛的消融研究,以证明我们的每一项贡献都能提升性能。进一步研究表明,我们的方法在单帧3D人体姿态估计方面显著优于近期的最先进水平。我们的代码和训练模型已在Github上公开发布。

代码仓库

seblutz/JointFormer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-h3wbJointformer-flip
MPJPE: 63.0
3d-human-pose-estimation-on-human36mJointformer (CPN)
Average MPJPE (mm): 50.5
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: No
3d-human-pose-estimation-on-human36mJointformer (GT)
Average MPJPE (mm): 34
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: Yes

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Jointformer:单帧提升变换器及其误差预测与修正用于三维人体姿态估计 | 论文 | HyperAI超神经