4 个月前

XNect:使用单个RGB相机实现实时多人3D动作捕捉

XNect:使用单个RGB相机实现实时多人3D动作捕捉

摘要

我们提出了一种使用单个RGB相机以超过30帧每秒(fps)的速度进行多人三维运动捕捉的实时方法。该方法能够在包含物体遮挡和其他人遮挡的通用场景中成功运行。我们的方法分为几个连续的阶段。第一阶段是一个卷积神经网络(CNN),用于估计所有可见关节的二维和三维姿态特征以及身份分配。为此,我们贡献了一种新的CNN架构,称为SelecSLS Net,它采用了新颖的选择性长程和短程跳跃连接来改善信息流,从而在不牺牲精度的情况下实现显著更快的网络速度。第二阶段是一个全连接神经网络,将每个主体因遮挡可能部分缺失的二维姿态和三维姿态特征转换为完整的三维姿态估计。第三阶段对每个主体预测的二维和三维姿态应用时空骨骼模型拟合,进一步协调二维和三维姿态,并强制执行时间连贯性。我们的方法返回每个主体的完整骨骼姿态,以关节角度的形式表示。这是与之前工作的一个重要区别,因为之前的多人体场景实时方法无法生成连贯骨骼的关节角度结果。所提出的系统在消费级硬件上运行时,输入分辨率为512x320的图像可以达到前所未有的超过30帧每秒的速度,并且实现了最先进的精度,这一点将在一系列具有挑战性的实际场景中得到验证。

基准测试

基准方法指标
3d-human-pose-estimation-on-human36mSelecSLS
Average MPJPE (mm): 63.6
3d-human-pose-estimation-on-mpi-inf-3dhpXNect (SelecSLS)
AUC: 45.3
MPJPE: 98.4
PCK: 82.8
3d-multi-person-human-pose-estimation-onSelecSLS
3DPCK: 75.8
monocular-3d-human-pose-estimation-on-human3SelecSLS
Average MPJPE (mm): 63.6
Frames Needed: 1
Need Ground Truth 2D Pose: No
Use Video Sequence: No

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
XNect:使用单个RGB相机实现实时多人3D动作捕捉 | 论文 | HyperAI超神经