
摘要
我们提出了一种简单而高效的单目3D手部姿态估计网络架构,该架构由一个图像编码器和一个基于网格卷积的解码器组成,并通过直接的3D手部网格重建损失进行端到端训练。我们通过收集大量来自YouTube视频的手部动作数据,构建了一个大规模数据集,并将其作为弱监督信号的来源来训练网络。基于弱监督的网格卷积系统在性能上显著优于现有最先进方法,甚至在“野外”(in the wild)基准测试中将误差降低了一半。相关数据集及额外资源已公开,可访问 https://arielai.com/mesh_hands 获取。
代码仓库
674106399/JointBoneLoss
pytorch
GitHub 中提及
EAST-J/Youtubehand
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-hand-pose-estimation-on-freihand | YoutubeHand | PA-F@15mm: 0.966 PA-F@5mm: 0.614 PA-MPJPE: 8.4 PA-MPVPE: 8.6 |