6 个月前

卷积神经网络

计算机视觉

Guozhen Zhang Yuhan Zhu Haonan Wang Youxin Chen Gangshan Wu Limin Wang

摘要

有效提取视频帧间运动与外观信息对于视频帧插值（Video Frame Interpolation, VFI）至关重要。以往方法通常以混合方式同时提取两类信息，或为每类信息设计独立模块，导致表征模糊且计算效率低下。本文提出一种新型模块，通过统一操作显式分离并提取运动与外观信息。具体而言，我们重新思考帧间注意力机制中的信息传递过程，并复用其注意力图，分别用于外观特征增强与运动信息提取。此外，为实现高效VFI，所提模块可无缝集成至混合CNN与Transformer架构中。该混合架构在降低帧间注意力计算复杂度的同时，有效保留了底层细节结构信息。实验结果表明，无论在固定时间步长还是任意时间步长插值任务下，本方法在多个数据集上均达到当前最优性能。同时，相较于性能相近的模型，本方法具有更轻量的计算开销。源代码与预训练模型已开源，地址为：https://github.com/MCG-NJU/EMA-VFI。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Guozhen Zhang Yuhan Zhu Haonan Wang Youxin Chen Gangshan Wu Limin Wang

摘要

有效提取视频帧间运动与外观信息对于视频帧插值（Video Frame Interpolation, VFI）至关重要。以往方法通常以混合方式同时提取两类信息，或为每类信息设计独立模块，导致表征模糊且计算效率低下。本文提出一种新型模块，通过统一操作显式分离并提取运动与外观信息。具体而言，我们重新思考帧间注意力机制中的信息传递过程，并复用其注意力图，分别用于外观特征增强与运动信息提取。此外，为实现高效VFI，所提模块可无缝集成至混合CNN与Transformer架构中。该混合架构在降低帧间注意力计算复杂度的同时，有效保留了底层细节结构信息。实验结果表明，无论在固定时间步长还是任意时间步长插值任务下，本方法在多个数据集上均达到当前最优性能。同时，相较于性能相近的模型，本方法具有更轻量的计算开销。源代码与预训练模型已开源，地址为：https://github.com/MCG-NJU/EMA-VFI。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供