
摘要
从单目深度图像中估计手部姿态是人机交互领域的一个重要且具有挑战性的问题。近年来,设计复杂的深度卷积网络(ConvNet)已被用于解决这一问题,但其相对于传统方法的改进并不十分明显。为了提升直接进行三维坐标回归的性能,我们提出了一种树形结构的区域集成网络(Region Ensemble Network, REN),该网络将卷积输出划分为多个区域,并整合每个区域上多个回归器的结果。与多模型集成相比,我们的模型完全实现了端到端训练。实验结果表明,我们的方法在两个公开数据集上的表现优于现有的最先进方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| hand-pose-estimation-on-icvl-hands | REN | Average 3D Error: 7.5 |
| hand-pose-estimation-on-msra-hands | REN | Average 3D Error: 9.8 |
| hand-pose-estimation-on-nyu-hands | REN | Average 3D Error: 12.7 |