3 个月前

视觉3D LSTM:一种用于视频预测及其他任务的模型

视觉3D LSTM:一种用于视频预测及其他任务的模型

摘要

时空预测学习虽然长期以来被认为是一种具有前景的自监督特征学习方法,但在未来视频预测之外的应用中却很少展现出其有效性。其根本原因在于,同时学习短期帧间依赖关系与长期高层语义关系极为困难。为此,我们提出了一种新模型——视觉记忆3D长短期记忆网络(Eidetic 3D LSTM, E3D-LSTM),该模型将3D卷积结构嵌入到循环神经网络(RNN)中。通过封装3D卷积模块,RNN的局部感知单元具备了对运动信息的感知能力,从而使得记忆单元能够更有效地存储短期特征。针对长期关系建模,我们设计了一种门控自注意力模块,使当前记忆状态能够与历史记忆记录进行交互。我们将这一记忆演化机制称为“视觉记忆(eidetic)”,因其能够在经历长时间干扰后,仍能有效跨多个时间步召回存储的记忆内容。我们首先在多个广泛使用的未来视频预测数据集上对E3D-LSTM网络进行了评估,结果达到了当前最优的性能水平。随后,我们进一步验证了该模型在早期动作识别任务中的优异表现——仅基于少量视频帧即可准确推断当前正在发生或即将发生的动作。该任务与视频预测高度契合,因为动作意图与行为趋势是实现顶尖性能的关键因素。

基准测试

基准方法指标
video-prediction-on-human36mE3D-LSTM
MAE: 1660
MSE: 464
SSIM: 0.869
video-prediction-on-kthE3d-LSTM
Cond: 10
PSNR: 29.31
Pred: 20
SSIM: 0.879
video-prediction-on-moving-mnistE3D-LSTM
MAE: 86.4
MSE: 41.3
SSIM: 0.910
weather-forecasting-on-sevirE3D-LSTM
MSE: 4.1702
mCSI: 0.4038

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉3D LSTM:一种用于视频预测及其他任务的模型 | 论文 | HyperAI超神经