4 个月前

V2V-PoseNet:从单个深度图准确估计3D手部和人体姿态的体素到体素预测网络

V2V-PoseNet:从单个深度图准确估计3D手部和人体姿态的体素到体素预测网络

摘要

目前,大多数基于深度学习的单深度图3D手部和人体姿态估计方法都采用了一种通用框架,该框架通过2D卷积神经网络(CNN)直接从2D深度图回归关键点(如手部或人体关节)的3D坐标。这种方法的第一个弱点在于2D深度图中存在的透视畸变。尽管深度图本质上是3D数据,但许多先前的方法将其视为2D图像,这在从3D空间投影到2D空间时会导致实际物体形状的扭曲。这迫使网络进行透视畸变不变性的估计。传统方法的第二个弱点是直接从2D图像回归3D坐标是一种高度非线性的映射,这给学习过程带来了困难。为克服这些弱点,我们首先将单深度图的3D手部和人体姿态估计问题转化为体素到体素的预测问题,即使用3D体素化网格并估计每个关键点的体素概率。我们设计了一个3D卷积神经网络模型,该模型能够在实时运行的同时提供精确的估计结果。我们的系统在几乎所有公开可用的3D手部和人体姿态估计数据集中均优于以往方法,并在HANDS 2017帧基3D手部姿态估计挑战赛中获得第一名。代码已发布在https://github.com/mks0601/V2V-PoseNet_RELEASE。

代码仓库

YangYangTaoTao/V2V-PoseNet_Pytorch
pytorch
GitHub 中提及
mks0601/V2V-PoseNet_RELEASE
官方
pytorch
GitHub 中提及
Neilblaze/Aerowave
tf
GitHub 中提及
dragonbook/V2V-PoseNet-pytorch
pytorch
GitHub 中提及

基准测试

基准方法指标
hand-pose-estimation-on-hands-2017V2V-PoseNet
Average 3D Error: 9.95
hand-pose-estimation-on-icvl-handsV2V-PoseNet
Average 3D Error: 6.28
hand-pose-estimation-on-msra-handsV2V-PoseNet
Average 3D Error: 7.49
hand-pose-estimation-on-nyu-handsV2V-PoseNet
Average 3D Error: 8.42
pose-estimation-on-itop-front-viewV2V-PoseNet
Mean mAP: 88.74
pose-estimation-on-itop-top-viewV2V-PoseNet
Mean mAP: 83.44

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
V2V-PoseNet:从单个深度图准确估计3D手部和人体姿态的体素到体素预测网络 | 论文 | HyperAI超神经