8 个月前

计算机视觉

Suhwan Cho Minhyeok Lee Jungho Lee Sangyoun Lee

摘要

在许多视频处理任务中，利用大规模图像数据集是一种常见的策略，因为图像数据更为丰富，有助于实现全面的知识迁移。一种典型的从静态图像模拟视频的方法是应用空间变换，如仿射变换和样条变形（spline warping），以生成模仿时间进程的序列。然而，在诸如视频显著目标检测等任务中，外观和运动线索都至关重要，这些基本的图像到视频技术无法生成捕捉每个物体独立运动特性的逼真光流。在本研究中，我们展示了图像到视频扩散模型能够在理解图像组件之间的上下文关系的同时，生成静态图像的逼真变换。这种能力使得模型能够生成合理的光流，既保留了语义完整性又反映了场景元素的独立运动。通过这种方式增强单个图像，我们创建了大规模的图像-光流对，显著提升了模型训练的效果。我们的方法在所有公开基准数据集上均达到了最先进的性能，超越了现有的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Suhwan Cho Minhyeok Lee Jungho Lee Sangyoun Lee

摘要

在许多视频处理任务中，利用大规模图像数据集是一种常见的策略，因为图像数据更为丰富，有助于实现全面的知识迁移。一种典型的从静态图像模拟视频的方法是应用空间变换，如仿射变换和样条变形（spline warping），以生成模仿时间进程的序列。然而，在诸如视频显著目标检测等任务中，外观和运动线索都至关重要，这些基本的图像到视频技术无法生成捕捉每个物体独立运动特性的逼真光流。在本研究中，我们展示了图像到视频扩散模型能够在理解图像组件之间的上下文关系的同时，生成静态图像的逼真变换。这种能力使得模型能够生成合理的光流，既保留了语义完整性又反映了场景元素的独立运动。通过这种方式增强单个图像，我们创建了大规模的图像-光流对，显著提升了模型训练的效果。我们的方法在所有公开基准数据集上均达到了最先进的性能，超越了现有的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供