
摘要
场景外推——即通过进入给定图像生成新的视图——是一项充满前景但极具挑战性的任务。对于每个预测帧,都需要解决一个联合修复和三维精化的问题,这个问题是病态的(ill-posed),并且包含高度的不确定性。此外,长距离场景的训练数据难以获取,通常缺乏足够的视角来推断准确的相机姿态。我们提出了DiffDreamer,这是一种无需监督的框架,能够在仅使用从互联网收集的自然场景图像进行训练的情况下,合成描绘长相机轨迹的新视图。利用引导去噪步骤的随机性质,我们训练扩散模型对投影的RGBD图像进行精化,但在推理过程中对去噪步骤进行了多帧过去和未来条件约束。我们证明了基于图像条件的扩散模型可以有效地执行长距离场景外推,并且在保持一致性方面显著优于之前的基于GAN的方法。尽管监督有限,DiffDreamer仍是一个强大且高效的场景外推解决方案,能够产生令人印象深刻的结果。项目页面:https://primecai.github.io/diffdreamer。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| perpetual-view-generation-on-lhq | DiffDreamer | FID (first 20 steps): 34.49 FID (full 100 steps): 51 IS (first 20 steps): 2.82 IS (full 100 steps): 2.99 KID (first 20 steps): 0.08 KID (full 100 steps): 0.28 |
| perpetual-view-generation-on-lhq | InfNat-Zero | FID (first 20 steps): 39.45 FID (full 100 steps): 26.24 IS (first 20 steps): 2.8 IS (full 100 steps): 2.72 KID (first 20 steps): 0.12 KID (full 100 steps): 0.12 |