3 个月前

SimVP:更简单却更优的视频预测

SimVP:更简单却更优的视频预测

摘要

从CNN、RNN到ViT,视频预测领域经历了显著的技术进步,其发展融合了辅助输入、复杂的神经网络架构以及精巧的训练策略。我们对这些进展深表钦佩,但同时也产生了一个疑问:是否存在一种更为简洁的方法,同样能够取得优异的性能?本文提出了SimVP——一种完全基于CNN构建、采用均方误差(MSE)损失函数进行端到端训练的简单视频预测模型。在不引入任何额外技巧或复杂策略的前提下,SimVP在五个基准数据集上均达到了当前最先进的性能。通过一系列扩展实验,我们验证了SimVP在真实世界数据集上具备出色的泛化能力与可扩展性。同时,训练成本的显著降低使其更易于扩展至复杂应用场景。我们相信,SimVP可作为视频预测领域的一个坚实基线,推动该方向的进一步研究与发展。代码已开源,访问地址为:\href{https://github.com/gaozhangyang/SimVP-Simpler-yet-Better-Video-Prediction}{GitHub}。

代码仓库

基准测试

基准方法指标
video-prediction-on-human36mSimVP
MAE: 1510
MSE: 316
SSIM: 0.904
video-prediction-on-moving-mnistSimVP
MSE: 23.8
SSIM: 0.948

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SimVP:更简单却更优的视频预测 | 论文 | HyperAI超神经