8 个月前

计算机视觉

Shengqu Cai1,2* Eric Ryan Chan1 Songyou Peng2,3 Mohamad Shahbazi2 Anton Obukhov2 Luc Van Gool2,4 Gordon Wetzstein1

摘要

场景外推——即通过进入给定图像生成新的视图——是一项充满前景但极具挑战性的任务。对于每个预测帧，都需要解决一个联合修复和三维精化的问题，这个问题是病态的（ill-posed），并且包含高度的不确定性。此外，长距离场景的训练数据难以获取，通常缺乏足够的视角来推断准确的相机姿态。我们提出了DiffDreamer，这是一种无需监督的框架，能够在仅使用从互联网收集的自然场景图像进行训练的情况下，合成描绘长相机轨迹的新视图。利用引导去噪步骤的随机性质，我们训练扩散模型对投影的RGBD图像进行精化，但在推理过程中对去噪步骤进行了多帧过去和未来条件约束。我们证明了基于图像条件的扩散模型可以有效地执行长距离场景外推，并且在保持一致性方面显著优于之前的基于GAN的方法。尽管监督有限，DiffDreamer仍是一个强大且高效的场景外推解决方案，能够产生令人印象深刻的结果。项目页面：https://primecai.github.io/diffdreamer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Shengqu Cai1,2* Eric Ryan Chan1 Songyou Peng2,3 Mohamad Shahbazi2 Anton Obukhov2 Luc Van Gool2,4 Gordon Wetzstein1

摘要

场景外推——即通过进入给定图像生成新的视图——是一项充满前景但极具挑战性的任务。对于每个预测帧，都需要解决一个联合修复和三维精化的问题，这个问题是病态的（ill-posed），并且包含高度的不确定性。此外，长距离场景的训练数据难以获取，通常缺乏足够的视角来推断准确的相机姿态。我们提出了DiffDreamer，这是一种无需监督的框架，能够在仅使用从互联网收集的自然场景图像进行训练的情况下，合成描绘长相机轨迹的新视图。利用引导去噪步骤的随机性质，我们训练扩散模型对投影的RGBD图像进行精化，但在推理过程中对去噪步骤进行了多帧过去和未来条件约束。我们证明了基于图像条件的扩散模型可以有效地执行长距离场景外推，并且在保持一致性方面显著优于之前的基于GAN的方法。尽管监督有限，DiffDreamer仍是一个强大且高效的场景外推解决方案，能够产生令人印象深刻的结果。项目页面：https://primecai.github.io/diffdreamer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供