3 个月前

高效且信息保持的未来帧预测及其拓展

高效且信息保持的未来帧预测及其拓展

摘要

采用保持分辨率的模块是视频预测中最大化信息保留的常见方法,然而其较高的内存消耗严重限制了其应用场景。为此,我们提出CrevNet——一种条件可逆网络(Conditionally Reversible Network),该网络利用可逆架构构建了一个双射的双向自编码器及其互补的循环预测器。所提模型在特征提取过程中具有理论上保证的无信息丢失特性,同时显著降低内存占用并提升计算效率。由于模型轻量化设计,我们能够无须担心内存瓶颈地引入3D卷积操作,从而增强模型捕捉短期与长期时序依赖关系的能力。在Moving MNIST、Traffic4cast和KITTI等数据集上,我们的方法取得了当前最优的性能表现。此外,我们进一步验证了该自监督学习方法的迁移能力,通过利用其学习到的特征在KITTI数据集上进行目标检测,取得了具有竞争力的结果。这些成果表明,CrevNet具有作为生成式预训练策略的潜力,可有效指导下游任务的优化。

基准测试

基准方法指标
video-prediction-on-moving-mnistCrevNet+ST-LSTM
MSE: 22.3
SSIM: 0.949
video-prediction-on-moving-mnistCrevNet+ConvLSTM
MSE: 38.5
SSIM: 0.928

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
高效且信息保持的未来帧预测及其拓展 | 论文 | HyperAI超神经