4 个月前

利用生成模型对静态图像进行视频显著目标检测的转换

利用生成模型对静态图像进行视频显著目标检测的转换

摘要

在许多视频处理任务中,利用大规模图像数据集是一种常见的策略,因为图像数据更为丰富,有助于实现全面的知识迁移。一种典型的从静态图像模拟视频的方法是应用空间变换,如仿射变换和样条变形(spline warping),以生成模仿时间进程的序列。然而,在诸如视频显著目标检测等任务中,外观和运动线索都至关重要,这些基本的图像到视频技术无法生成捕捉每个物体独立运动特性的逼真光流。在本研究中,我们展示了图像到视频扩散模型能够在理解图像组件之间的上下文关系的同时,生成静态图像的逼真变换。这种能力使得模型能够生成合理的光流,既保留了语义完整性又反映了场景元素的独立运动。通过这种方式增强单个图像,我们创建了大规模的图像-光流对,显著提升了模型训练的效果。我们的方法在所有公开基准数据集上均达到了最先进的性能,超越了现有的方法。

基准测试

基准方法指标
video-salient-object-detection-on-davis-2016RealFlow
AVERAGE MAE: 0.010
MAX F-MEASURE: 0.939
S-Measure: 0.945
video-salient-object-detection-on-davsodRealFlow
Average MAE: 0.066
S-Measure: 0.803
max F-Measure: 0.732
video-salient-object-detection-on-fbms-59RealFlow
AVERAGE MAE: 0.028
MAX F-MEASURE: 0.906
S-Measure: 0.926
video-salient-object-detection-on-visalRealFlow
Average MAE: 0.010
S-Measure: 0.962
max E-measure: 0.966

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用生成模型对静态图像进行视频显著目标检测的转换 | 论文 | HyperAI超神经