4 个月前

DiffDreamer:基于条件扩散模型的单视图场景外推一致性的无监督方法

DiffDreamer:基于条件扩散模型的单视图场景外推一致性的无监督方法

摘要

场景外推——即通过进入给定图像生成新的视图——是一项充满前景但极具挑战性的任务。对于每个预测帧,都需要解决一个联合修复和三维精化的问题,这个问题是病态的(ill-posed),并且包含高度的不确定性。此外,长距离场景的训练数据难以获取,通常缺乏足够的视角来推断准确的相机姿态。我们提出了DiffDreamer,这是一种无需监督的框架,能够在仅使用从互联网收集的自然场景图像进行训练的情况下,合成描绘长相机轨迹的新视图。利用引导去噪步骤的随机性质,我们训练扩散模型对投影的RGBD图像进行精化,但在推理过程中对去噪步骤进行了多帧过去和未来条件约束。我们证明了基于图像条件的扩散模型可以有效地执行长距离场景外推,并且在保持一致性方面显著优于之前的基于GAN的方法。尽管监督有限,DiffDreamer仍是一个强大且高效的场景外推解决方案,能够产生令人印象深刻的结果。项目页面:https://primecai.github.io/diffdreamer。

基准测试

基准方法指标
perpetual-view-generation-on-lhqDiffDreamer
FID (first 20 steps): 34.49
FID (full 100 steps): 51
IS (first 20 steps): 2.82
IS (full 100 steps): 2.99
KID (first 20 steps): 0.08
KID (full 100 steps): 0.28
perpetual-view-generation-on-lhqInfNat-Zero
FID (first 20 steps): 39.45
FID (full 100 steps): 26.24
IS (first 20 steps): 2.8
IS (full 100 steps): 2.72
KID (first 20 steps): 0.12
KID (full 100 steps): 0.12

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DiffDreamer:基于条件扩散模型的单视图场景外推一致性的无监督方法 | 论文 | HyperAI超神经