3 个月前

长视频的柔性扩散建模

长视频的柔性扩散建模

摘要

我们提出了一种基于去噪扩散概率模型的视频建模框架,能够生成在多种真实环境下的长时长视频补全结果。我们引入了一种生成模型,该模型在推理阶段可基于任意已知的视频帧子集,采样任意其他子集的视频帧,并为此目的设计了相应的网络架构。该方法使我们能够高效地比较与优化长视频中帧采样的顺序策略,并实现对先前采样帧的有选择性、稀疏且具有长距离依赖关系的条件建模。我们在多个数据集上展示了该方法相较于以往工作的显著性能提升,并成功生成了时长超过25分钟的时序连贯视频。此外,我们还发布了一个新的视频建模数据集,以及基于CARLA自动驾驶仿真器生成视频所构建的语义有意义的评估指标。

代码仓库

基准测试

基准方法指标
rain-removal-on-nighrainFDM
PSNR: 23.49

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
长视频的柔性扩散建模 | 论文 | HyperAI超神经