
摘要
时空序列的预测学习旨在通过学习历史上下文来生成未来的图像,其中视觉动态被认为具有模块化结构,可通过组合式子系统进行建模。本文提出一种新型循环神经网络——PredRNN,以建模此类结构。该网络中,一对记忆单元被显式解耦,以近乎独立的方式进行状态转移,最终形成对复杂环境的统一表征。具体而言,除了传统LSTM中的记忆单元外,该网络还引入了一种锯齿状的记忆流机制,该机制在所有网络层间沿自底向上和自顶向下两个方向传播,从而实现不同层次RNN所学习到的视觉动态之间的有效交互。此外,网络还引入了一种记忆解耦损失函数,以防止记忆单元学习冗余特征。为进一步提升模型对长期动态的建模能力,我们提出一种新的课程学习策略,促使PredRNN从上下文帧中学习长期依赖关系,该策略可推广至大多数序列到序列模型。我们通过详尽的消融实验验证了各组件的有效性。实验结果表明,该方法在五个数据集上均取得了极具竞争力的性能,适用于无动作条件与有动作条件下的预测学习场景。
代码仓库
ksm26/spatiotemporal-predictions
pytorch
GitHub 中提及
chengtan9907/simvpv2
pytorch
GitHub 中提及
thuml/predrnn-pytorch
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-prediction-on-kth | PredRNN-V2 | Cond: 10 LPIPS: 0.139 PSNR: 28.37 Pred: 20 SSIM: 0.839 |
| video-prediction-on-moving-mnist | PredRNN-V2 | LPIPS: 0.071 MSE: 48.4 SSIM: 0.891 |
| weather-forecasting-on-sevir | PredRNN | MSE: 3.9014 mCSI: 0.4080 |