
摘要
图像翻译和操控随着深度生成模型的快速发展而受到越来越多的关注。尽管现有的方法已经取得了令人印象深刻的结果,但它们主要在二维空间中进行操作。鉴于基于NeRF的三维感知生成模型的最新进展,我们提出了一项新的任务——语义到NeRF(Semantic-to-NeRF)翻译,该任务旨在以单视图语义掩模作为输入条件,重建由NeRF建模的三维场景。为了启动这一新颖的任务,我们提出了Sem2NeRF框架。具体而言,Sem2NeRF通过将语义掩模编码为控制预训练解码器三维场景表示的潜在代码来应对这一极具挑战性的任务。为进一步提高映射的准确性,我们在编码器和解码器的设计中引入了一种新的区域感知学习策略。我们验证了所提出的Sem2NeRF的有效性,并展示了它在两个基准数据集上优于多个强大的基线方法。代码和视频可在https://donydchen.github.io/sem2nerf/ 获取。
代码仓库
donydchen/sem2nerf
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-aware-image-synthesis-on-celebamask-hq | pix2pixHD | FID: 67.32 IS: 1.72 |
| 3d-aware-image-synthesis-on-celebamask-hq | Sem2NeRF | FID: 41.52 IS: 2.03 |
| 3d-aware-image-synthesis-on-celebamask-hq | pSp | FID: 55.56 IS: 1.74 |