
摘要
从单张深度图像进行三维手部姿态估计是计算机视觉中的一个基础性问题,具有广泛的应用前景。然而,由于手部姿态存在视角变化以及遮挡等问题,现有方法仍难以取得令人满意的手部姿态估计效果。本文提出了一种面向单深度图像三维手部姿态估计的新颖虚拟视角选择与融合模块。我们提出自动选择多个虚拟视角用于姿态估计,并融合所有虚拟视角的估计结果,实验表明该策略能够有效提升姿态估计的准确性和鲁棒性。为筛选出对姿态融合最具价值的虚拟视角,我们设计了一种轻量级网络,通过知识蒸馏的方式评估各虚拟视角的置信度,从而实现高效且精准的视角选择。在NYU、ICVL和Hands2019三个主流基准数据集上的实验结果表明,本方法在NYU和ICVL数据集上优于当前最优方法,在Hands2019-Task1任务中也取得了极具竞争力的性能表现。实验验证了所提出的虚拟视角选择与融合模块在三维手部姿态估计任务中的有效性与实用性。
代码仓库
iscas3dv/handpose-virtualview
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| hand-pose-estimation-on-hands-2019 | Ours-15views | Average 3D Error: 12.51 |
| hand-pose-estimation-on-icvl | Ours-15views | Error (mm): 4.76 |
| hand-pose-estimation-on-icvl-hands | Virtual View Selection | Average 3D Error: 4.79 |
| hand-pose-estimation-on-nyu-hands | Virtual View Selection | Average 3D Error: 6.4 |