
摘要
近期基于图像的3D人体形状估计技术的进步主要得益于深度神经网络表示能力的显著提升。尽管当前的方法在实际应用中已经展示了其潜力,但它们仍然无法生成与输入图像细节水平相当的重建结果。我们认为这一局限性主要源于两个相互冲突的要求:准确的预测需要较大的上下文,而精确的预测则需要高分辨率。由于现有硬件存在内存限制,以往的方法往往以低分辨率图像作为输入来覆盖较大的空间上下文,从而导致生成的3D估计结果不够精确(或分辨率较低)。为了解决这一问题,我们提出了一种多层级架构,该架构可以端到端地进行训练。粗略层级以较低分辨率观察整个图像,并专注于整体推理。这为精细层级提供了上下文信息,后者通过观察高分辨率图像来估计高度详细的几何结构。实验结果表明,我们的方法在单幅图像人体形状重建方面显著优于现有的最先进技术,完全利用了1000像素分辨率的输入图像。
代码仓库
agnJason/RGB-D-PIFuHD
pytorch
GitHub 中提及
facebookresearch/pifuhd
官方
pytorch
GitHub 中提及
cardboard-q/pifuhd_demo_model_test
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-reconstruction-on-4d-dress | PIFuHD_Outer | Chamfer (cm): 2.393 IoU: 0.743 Normal Consistency: 0.763 |
| 3d-human-reconstruction-on-4d-dress | PIFuHD_Inner | Chamfer (cm): 2.426 IoU: 0.739 Normal Consistency: 0.793 |
| 3d-human-reconstruction-on-cape | PIFuHD | Chamfer (cm): 3.237 NC: 0.112 P2S (cm): 3.123 |
| 3d-human-reconstruction-on-customhumans | PIFuHD | Chamfer Distance P-to-S: 2.107 Chamfer Distance S-to-P: 2.228 Normal Consistency: 0.804 f-Score: 39.076 |
| 3d-object-reconstruction-from-a-single-image | ML-PIFu (end-to-end) | Chamfer (cm): 1.525 |
| 3d-object-reconstruction-from-a-single-image-1 | ML-PIFu (alternate) | Chamfer (cm): 1.73 Point-to-surface distance (cm): 1.63 Surface normal consistency: 0.133 |
| 3d-object-reconstruction-from-a-single-image-1 | ML-PIFu (end-to-end) | Chamfer (cm): 1.525 Point-to-surface distance (cm): 0.25 Surface normal consistency: 0.22 |