3 个月前

更快的VoxelPose:通过正交投影实现实时3D人体姿态估计

更快的VoxelPose:通过正交投影实现实时3D人体姿态估计

摘要

尽管基于体素(voxel)的方法在多摄像头场景下的多人三维姿态估计任务中取得了令人瞩目的成果,但其仍面临计算负担沉重的问题,尤其是在大场景下表现尤为明显。为此,本文提出Faster VoxelPose,通过将特征体投影至三个二维坐标平面,并分别从这些平面中估计X、Y、Z坐标,以应对这一挑战。具体而言,首先利用投影至xy平面的体素特征估计二维边界框,结合沿z轴方向的特征估计高度,从而定位每个人体的三维边界框。随后,针对每个被定位的人体,分别从三个坐标平面中估计其部分关键点坐标,再将这些坐标融合以获得最终的三维姿态。该方法无需依赖昂贵的3D卷积神经网络(3D-CNN),在保持与当前最先进方法相当精度的同时,将原VoxelPose的推理速度提升了十倍,充分证明了其在实时应用中的巨大潜力。

代码仓库

AlvinYH/Faster-VoxelPose
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-multi-person-pose-estimation-on-campusFaster VoxelPose
PCP3D: 96.9
3d-multi-person-pose-estimation-on-cmuFaster VoxelPose
Average MPJPE (mm): 18.41
3d-multi-person-pose-estimation-on-shelfFaster VoxelPose
PCP3D: 97.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供