3 个月前

用于视频预测的动态多尺度体素流网络

用于视频预测的动态多尺度体素流网络

摘要

视频预测性能已因先进的深度神经网络而得到显著提升。然而,当前大多数方法仍存在模型规模庞大、需依赖额外输入(如语义图或深度图)才能实现优异性能的问题。为兼顾效率,本文提出一种动态多尺度体素流网络(Dynamic Multi-scale Voxel Flow Network, DMVFN),仅使用RGB图像即可在更低的计算成本下实现优于以往方法的视频预测性能。DMVFN的核心是一个可微分的路由模块,能够有效感知视频帧中不同尺度的运动信息。模型训练完成后,在推理阶段,DMVFN可根据输入内容自适应地选择相应的子网络。在多个基准数据集上的实验结果表明,与Deep Voxel Flow相比,本方法的推理速度提升了一个数量级;同时,在生成图像质量方面,DMVFN超越了当前基于迭代优化的先进方法OPT。相关代码与演示视频已公开,详见:https://huxiaotaostasy.github.io/DMVFN/。

代码仓库

megvii-research/CVPR2023-DMVFN
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-prediction-on-cityscapes-1DMVFN
LPIPS: 0.0558
MS-SSIM: 0.9573
video-prediction-on-davis-2017DMVFN
LPIPS: 0.0996
MS-SSIM: 0.8397
video-prediction-on-kittiDMVFN
LPIPS: 0.1074
MS-SSIM: 0.8853
video-prediction-on-vimeo90kDMVFN
LPIPS: 0.0369
MS-SSIM: 0.9701

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于视频预测的动态多尺度体素流网络 | 论文 | HyperAI超神经