8 个月前

计算机视觉

计算机视觉

Kalluri Tarun ; Pathak Deepak ; Chandraker Manmohan ; Tran Du

摘要

大多数视频帧插值方法通过计算视频相邻帧之间的双向光流，然后采用合适的变形算法生成输出帧。然而，依赖光流的方法往往无法直接从视频中建模遮挡和复杂的非线性运动，并引入了额外的瓶颈，这些瓶颈不适合广泛部署。我们通过FLAVR（Flexible and efficient Architecture for Video frame interpolation using 3D space-time convolutions）解决了这些问题，这是一种灵活且高效的架构，利用3D时空卷积实现端到端的视频帧插值学习和推理。我们的方法能够高效地理解和处理非线性运动、复杂遮挡和时间抽象，从而在视频插值方面取得了更好的性能，同时无需提供任何形式的光流或深度图作为额外输入。由于其简洁性，FLAVR在多帧插值上的推理速度比当前最准确的方法快3倍，而不会损失插值精度。此外，我们在多种具有挑战性的设置下对FLAVR进行了评估，并在各种流行的基准测试（包括Vimeo-90K、UCF101、DAVIS、Adobe和GoPro）中始终展示了优于先前方法的定性和定量结果。最后，我们证明了FLAVR在视频帧插值中的应用可以作为动作识别、光流估计和运动放大等任务中有用的自监督预训练任务。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Kalluri Tarun ; Pathak Deepak ; Chandraker Manmohan ; Tran Du

摘要

大多数视频帧插值方法通过计算视频相邻帧之间的双向光流，然后采用合适的变形算法生成输出帧。然而，依赖光流的方法往往无法直接从视频中建模遮挡和复杂的非线性运动，并引入了额外的瓶颈，这些瓶颈不适合广泛部署。我们通过FLAVR（Flexible and efficient Architecture for Video frame interpolation using 3D space-time convolutions）解决了这些问题，这是一种灵活且高效的架构，利用3D时空卷积实现端到端的视频帧插值学习和推理。我们的方法能够高效地理解和处理非线性运动、复杂遮挡和时间抽象，从而在视频插值方面取得了更好的性能，同时无需提供任何形式的光流或深度图作为额外输入。由于其简洁性，FLAVR在多帧插值上的推理速度比当前最准确的方法快3倍，而不会损失插值精度。此外，我们在多种具有挑战性的设置下对FLAVR进行了评估，并在各种流行的基准测试（包括Vimeo-90K、UCF101、DAVIS、Adobe和GoPro）中始终展示了优于先前方法的定性和定量结果。最后，我们证明了FLAVR在视频帧插值中的应用可以作为动作识别、光流估计和运动放大等任务中有用的自监督预训练任务。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

FLAVR：用于快速帧插值的流无关视频表示 | 论文 | HyperAI超神经