6 个月前

机器视觉 3D

卷积神经网络

计算机视觉

Hang Ye Wentao Zhu Chunyu Wang Rujie Wu Yizhou Wang

摘要

尽管基于体素（voxel）的方法在多摄像头场景下的多人三维姿态估计任务中取得了令人瞩目的成果，但其仍面临计算负担沉重的问题，尤其是在大场景下表现尤为明显。为此，本文提出Faster VoxelPose，通过将特征体投影至三个二维坐标平面，并分别从这些平面中估计X、Y、Z坐标，以应对这一挑战。具体而言，首先利用投影至xy平面的体素特征估计二维边界框，结合沿z轴方向的特征估计高度，从而定位每个人体的三维边界框。随后，针对每个被定位的人体，分别从三个坐标平面中估计其部分关键点坐标，再将这些坐标融合以获得最终的三维姿态。该方法无需依赖昂贵的3D卷积神经网络（3D-CNN），在保持与当前最先进方法相当精度的同时，将原VoxelPose的推理速度提升了十倍，充分证明了其在实时应用中的巨大潜力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

机器视觉 3D

卷积神经网络

计算机视觉

Hang Ye Wentao Zhu Chunyu Wang Rujie Wu Yizhou Wang

摘要

尽管基于体素（voxel）的方法在多摄像头场景下的多人三维姿态估计任务中取得了令人瞩目的成果，但其仍面临计算负担沉重的问题，尤其是在大场景下表现尤为明显。为此，本文提出Faster VoxelPose，通过将特征体投影至三个二维坐标平面，并分别从这些平面中估计X、Y、Z坐标，以应对这一挑战。具体而言，首先利用投影至xy平面的体素特征估计二维边界框，结合沿z轴方向的特征估计高度，从而定位每个人体的三维边界框。随后，针对每个被定位的人体，分别从三个坐标平面中估计其部分关键点坐标，再将这些坐标融合以获得最终的三维姿态。该方法无需依赖昂贵的3D卷积神经网络（3D-CNN），在保持与当前最先进方法相当精度的同时，将原VoxelPose的推理速度提升了十倍，充分证明了其在实时应用中的巨大潜力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供