4 个月前

分解运动和内容以预测自然视频序列

分解运动和内容以预测自然视频序列

摘要

我们提出了一种用于预测自然视频序列中未来帧的深度神经网络。为了有效处理视频中像素的复杂演变,我们建议将运动和内容这两个生成视频动态的关键组件进行分解。我们的模型基于编码器-解码器卷积神经网络(Encoder-Decoder Convolutional Neural Network)和卷积LSTM(Convolutional LSTM),分别用于捕捉图像的空间布局和相应的时间动态。通过独立建模运动和内容,预测下一帧的任务简化为将提取的内容特征通过识别的运动特征转换为下一帧的内容,从而降低了预测任务的难度。我们的模型可以在多个时间步上端到端地训练,并且能够自然地学习到运动和内容的分离而无需单独训练。我们在KTH、Weizmann动作和UCF-101数据集上评估了所提出的网络架构在人类活动视频中的表现。实验结果表明,与近期的方法相比,我们的方法达到了最先进的性能。据我们所知,这是首个能够端到端训练并实现运动与内容分离以建模时空动态、进行自然视频像素级未来预测的网络架构。

基准测试

基准方法指标
video-prediction-on-kthMCnet + Residual
Cond: 10
PSNR: 26.29
Pred: 20
SSIM: 0.806
video-prediction-on-kthMCnet
Cond: 10
PSNR: 25.95
Pred: 20
SSIM: 0.804

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供