摘要

三维摄影技术可以将静态图像转换为具有吸引人的三维视觉效果的视频。现有的方法通常首先进行单目深度估计，然后将输入帧渲染为不同视角的后续帧，最后使用修复模型来填补那些缺失或被遮挡的区域。修复模型在渲染质量中起着关键作用，但通常是在域外数据上训练的。为了减少训练和推理之间的差距，我们提出了一种新颖的自监督扩散模型作为修复模块。给定一张单一输入图像，我们通过随机循环渲染自动构建一个包含遮罩图像和真实图像的训练对。所构建的训练样本与测试实例紧密对齐，无需数据标注。为了充分利用遮罩图像，我们设计了一个掩码增强块（Masked Enhanced Block, MEB），该模块可以轻松插入UNet并增强语义条件。针对现实世界的动画制作，我们提出了一个新的任务：外部动画（out-animation），该任务扩展了输入对象的空间和时间范围。在真实数据集上的大量实验表明，我们的方法在现有最先进方法中取得了具有竞争力的结果。

源 PDF