
摘要
近年来,基于深度学习的方法在从单张RGB图像重建三维手部形状方面取得了令人瞩目的进展。这类方法大致可分为两类:基于模型的方法(model-based approaches),其性能高度依赖于模型参数空间;以及无模型方法(model-free approaches),这类方法通常需要大量三维真实标注数据以缓解深度模糊问题,但在弱监督场景下表现不佳。为克服上述局限,本文提出一种新型概率模型,旨在结合基于模型方法的鲁棒性,同时降低对模型参数空间的依赖性。所提出的概率模型引入一个基于模型的网络作为先验网络(prior-net),用于估计关节与顶点的先验概率分布。此外,我们设计了一种基于注意力机制的网格顶点不确定性回归模型(Attention-based Mesh Vertices Uncertainty Regression, AMVUR),以捕捉顶点之间的依赖关系,以及关节与网格顶点间的相关性,从而提升特征表示能力。为进一步实现高保真度的纹理重建,我们还提出一种基于学习的、具有遮挡感知能力的手部纹理回归模型。实验表明,所提出的概率模型在监督学习与弱监督学习两种训练范式下均展现出良好的灵活性。在多种实验设置下,包括存在严重遮挡的情形,本方法在单张图像驱动的三维手部形状与纹理重建任务中均达到了当前最优的精度水平。
代码仓库
zhehengjianglancaster/amvur
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-hand-pose-estimation-on-freihand | AMVUR | PA-F@15mm: 0.987 PA-F@5mm: 0.767 PA-MPJPE: 6.2 PA-MPVPE: 6.1 |
| 3d-hand-pose-estimation-on-ho-3d | AMVUR | AUC_J: 0.835 AUC_V: 0.836 F@15mm: 0.965 F@5mm: 0.608 PA-MPJPE (mm): 8.3 PA-MPVPE: 8.2 |
| 3d-hand-pose-estimation-on-ho-3d-v3 | AMVUR | AUC_J: 0.826 AUC_V: 0.834 F@15mm: 0.964 F@5mm: 0.593 PA-MPJPE: 8.7 PA-MPVPE: 8.3 |