3 个月前

基于转换的对抗性大规模数据视频预测

基于转换的对抗性大规模数据视频预测

摘要

近年来,对抗性生成建模领域的最新突破使得模型能够生成高质量的视频样本,即使在大规模、复杂的现实世界视频数据集上亦可实现。在本研究中,我们聚焦于视频预测任务:给定一段从视频中提取的帧序列,目标是生成一个合理且连贯的未来帧序列。首先,我们通过系统性的实验研究对判别器结构进行分解,并提出一种新型网络架构,该架构在收敛速度和性能表现上均优于以往方法,显著提升了当前技术水平。随后,我们深入分析生成器中的循环单元结构,并提出一种新颖的循环单元设计:该单元根据预测的运动特征对历史隐藏状态进行变换,并进一步优化以有效处理遮挡、场景变化及其他复杂动态行为。实验结果表明,该循环单元在各项指标上均持续优于先前的设计。最终,我们的模型在大规模Kinetics-600数据集上实现了显著的性能跃升,将测试集的Fréchet视频距离(Fréchet Video Distance)从69.2降低至25.7,标志着视频预测领域的新里程碑。

基准测试

基准方法指标
video-generation-on-bair-robot-pushingTrIVD-GAN-FP
Cond: 1
FVD score: 103.3
Pred: 15
Train: 15
video-prediction-on-kinetics-600-12-framesTriVD-GAN-FP
Cond: 5
FVD: 25.74±0.66
IS: 12.54±0.06
Pred: 11

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于转换的对抗性大规模数据视频预测 | 论文 | HyperAI超神经