4 个月前

通过单张图像上的自监督扩散学习3D摄影视频

通过单张图像上的自监督扩散学习3D摄影视频

摘要

三维摄影技术可以将静态图像转换为具有吸引人的三维视觉效果的视频。现有的方法通常首先进行单目深度估计,然后将输入帧渲染为不同视角的后续帧,最后使用修复模型来填补那些缺失或被遮挡的区域。修复模型在渲染质量中起着关键作用,但通常是在域外数据上训练的。为了减少训练和推理之间的差距,我们提出了一种新颖的自监督扩散模型作为修复模块。给定一张单一输入图像,我们通过随机循环渲染自动构建一个包含遮罩图像和真实图像的训练对。所构建的训练样本与测试实例紧密对齐,无需数据标注。为了充分利用遮罩图像,我们设计了一个掩码增强块(Masked Enhanced Block, MEB),该模块可以轻松插入UNet并增强语义条件。针对现实世界的动画制作,我们提出了一个新的任务:外部动画(out-animation),该任务扩展了输入对象的空间和时间范围。在真实数据集上的大量实验表明,我们的方法在现有最先进方法中取得了具有竞争力的结果。

基准测试

基准方法指标
image-outpainting-on-mscocoNUWA-3D
CLIP Similarity: 32.26
FID: 10.65
Inception score: 38.61

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过单张图像上的自监督扩散学习3D摄影视频 | 论文 | HyperAI超神经