
摘要
我们介绍了Vid2Avatar,这是一种从单目野外视频中学习人类虚拟形象的方法。从单目野外视频中重建自然运动的人类非常困难。解决这一问题需要准确地将人类从任意背景中分离出来。此外,还需要从短的视频序列中重建详细的3D表面,这使得任务更加具有挑战性。尽管存在这些挑战,我们的方法并不需要任何真实数据监督或从大量穿着衣物的人体扫描数据集中提取的先验知识,也不依赖任何外部分割模块。相反,该方法通过联合建模场景中的背景和人体来直接在3D空间中解决场景分解和表面重建的任务,参数化为两个独立的神经场。具体而言,我们在规范空间中定义了一个时间一致的人体表示,并对背景模型、规范人体形状和纹理以及每帧的人体姿态参数进行了全局优化。为了实现动态人体与静态背景的清晰分离,我们引入了一种由粗到细的体积渲染采样策略和新的目标函数,从而生成详细且鲁棒的3D人体几何重建结果。我们在公开可用的数据集上评估了我们的方法,并展示了相对于现有技术的改进。
代码仓库
MoyGcc/vid2avatar
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-reconstruction-on-4d-dress | Vid2Avatar_Outer | Chamfer (cm): 4.027 IoU: 0.745 Normal Consistency: 0.683 |
| 3d-human-reconstruction-on-4d-dress | Vid2Avatar_Inner | Chamfer (cm): 2.870 IoU: 0.772 Normal Consistency: 0.750 |