
摘要
我们提出了一种基于神经渲染的系统,仅需单张照片即可生成人物头部虚拟形象。该方法通过将人物外观分解为两个层次进行建模:第一层为依赖姿态的粗略图像,由一个小型神经网络合成;第二层为与姿态无关的纹理图像,用于刻画高频细节。该纹理图像在离线阶段生成,经姿态相关的几何形变处理后叠加至粗略图像之上,从而确保合成头部视角具有较高的有效分辨率。我们在视觉质量与运行速度两个方面将本系统与现有最先进方法进行了对比。实验结果表明,在保持相同视觉质量的前提下,本方法相较以往的神经头部虚拟形象模型实现了显著的推理速度提升。此外,我们还实现了该系统在实时智能手机平台上的部署,验证了其在实际应用中的可行性与高效性。
代码仓库
saic-violet/bilayer-model
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| talking-head-generation-on-voxceleb2-1-shot | Fast Bi-layer Avatars (medium size) | CSIM: 0.653 LPIPS: 0.358 Normalized Pose Error: 43.3 SSIM: 0.508 inference time (ms): 4 |
| talking-head-generation-on-voxceleb2-1-shot | Few-shot Vid-to-vid (medium size) | CSIM: 0.604 LPIPS: 0.368 Normalized Pose Error: 46.1 SSIM: 0.419 inference time (ms): 22 |
| talking-head-generation-on-voxceleb2-1-shot | First Order Motion Model (medium size) | CSIM: 0.638 LPIPS: 0.311 Normalized Pose Error: 47.8 SSIM: 0.553 inference time (ms): 13 |