3 个月前

XFormer:快速且精确的单目3D人体捕获

XFormer:快速且精确的单目3D人体捕获

摘要

我们提出XFormer,一种新型的人体网格与动作捕捉方法,仅需单目图像作为输入,即可在消费级CPU上实现实时性能。所提出的网络架构包含两个分支:关键点分支,用于根据2D关键点估计3D人体网格顶点;图像分支,直接从RGB图像特征中进行预测。本方法的核心是一个跨模态Transformer模块,通过建模2D关键点坐标与图像空间特征之间的注意力关系,实现两个分支间的信息交互。该架构设计巧妙,使得我们能够基于多种类型的数据集进行训练,包括带有2D/3D标注的图像、带有3D伪标签的图像,以及不附带图像的动捕数据集,从而显著提升了系统的精度与泛化能力。基于轻量级主干网络(MobileNetV3),该方法运行速度极快(单核CPU下超过30fps),同时保持了具有竞争力的精度。此外,当采用HRNet作为主干网络时,XFormer在Human3.6M和3DPW数据集上均达到了当前最优性能。

基准测试

基准方法指标
3d-human-pose-estimation-on-3dpwXFormer (HRNet)
MPJPE: 75
MPVPE: 87.1
PA-MPJPE: 45.7
3d-human-pose-estimation-on-human36mXFormer (HRNet)
Average MPJPE (mm): 52.6
PA-MPJPE: 35.2
3d-human-pose-estimation-on-mpi-inf-3dhpXFormer (HRNet)
MPJPE: 109.8
PA-MPJPE: 64.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
XFormer:快速且精确的单目3D人体捕获 | 论文 | HyperAI超神经