
摘要
生成模型能够建模并预测未来的事件序列,原则上可以学习捕捉复杂的现实世界现象,例如物理交互。然而,视频预测的一个核心挑战在于未来具有高度不确定性:对过去事件的一系列观察可能暗示许多不同的未来情景。尽管最近的一些研究已经探讨了能够表示不确定未来的概率模型,但这些模型要么在计算上极其昂贵,如像素级自回归模型,要么没有直接优化数据的似然性。据我们所知,我们的工作首次提出了使用归一化流(normalizing flows)进行多帧视频预测的方法,该方法允许直接优化数据的似然性,并生成高质量的随机预测。我们描述了一种用于建模潜在空间动态的方法,并展示了基于流的生成模型在视频生成建模中提供了一种可行且具有竞争力的解决方案。
代码仓库
tensorflow/tensor2tensor
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-generation-on-bair-robot-pushing | VideoFlow | Cond: 3 FVD score: 131±5 Pred: 14 (total 16) Train: 10 |