3 个月前

基于记忆对齐学习的视频预测:召回长期运动上下文

基于记忆对齐学习的视频预测:召回长期运动上下文

摘要

本研究针对未来帧预测中的长期运动上下文建模问题。为实现精准的未来预测,必须准确识别输入运动(如腿部动作)所归属的长期运动上下文(如行走或奔跑)。在处理长期运动上下文时面临的主要瓶颈包括:(i)如何在输入序列动态信息有限的情况下,自然地预测与之匹配的长期运动上下文;(ii)如何在高维运动(如复杂动作)场景下有效建模和预测长期运动上下文。为解决上述问题,本文提出一种新型的运动上下文感知视频预测方法。针对瓶颈(i),我们引入了一种长期运动上下文记忆机制(LMC-Memory),并结合记忆对齐学习(memory alignment learning)。该学习机制能够将长期运动上下文信息有效存储于记忆模块中,并实现与动态信息受限输入序列之间的精准匹配,从而仅凭有限输入即可准确回忆出相应的长期运动上下文。针对瓶颈(ii),我们进一步提出记忆查询分解(memory query decomposition)策略,通过将局部运动上下文(即低维动态特征)分别存储,并针对输入序列的各个局部区域独立检索最合适的局部上下文信息。该机制显著增强了记忆模块的匹配能力与表达效果。实验结果表明,所提出的方法在长期预测任务中显著优于其他先进的基于RNN的视频预测方法。此外,通过消融实验与记忆特征分析,我们进一步验证了所提网络设计的有效性与合理性。本工作的源代码已公开发布。

代码仓库

sangmin-git/LMC-Memory
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-prediction-on-kthLMC
Cond: 10
LPIPS: 159.8
PSNR: 27.5
Pred: 40
SSIM: 0.879
video-prediction-on-moving-mnistLMC
LPIPS: 0.047
MSE: 41.5
SSIM: 0.924

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于记忆对齐学习的视频预测:召回长期运动上下文 | 论文 | HyperAI超神经