4 个月前

RVOS:端到端循环网络用于视频对象分割

RVOS:端到端循环网络用于视频对象分割

摘要

多目标视频对象分割是一项具有挑战性的任务,特别是在零样本情况下,即在初始帧中没有提供任何对象掩码,模型需要在序列中找到要分割的对象。在我们的研究工作中,我们提出了一种完全端到端可训练的递归网络用于多目标视频对象分割(RVOS)。我们的模型在两个不同的域中引入了递归机制:(i) 空间域,这使得模型能够在单个帧内发现不同的对象实例;(ii) 时间域,这使得模型能够保持分割对象在时间上的连贯性。我们在零样本视频对象分割任务上对 RVOS 进行了训练,并首次报告了 DAVIS-2017 和 YouTube-VOS 基准测试的定量结果。此外,我们通过使用前一时间步获得的掩码作为递归模块的输入,将 RVOS 适应于单样本视频对象分割任务。我们的模型在 YouTube-VOS 基准测试中达到了与现有最先进技术相当的结果,并且在 DAVIS-2017 基准测试中超越了所有不使用在线学习的先前视频对象分割方法。此外,我们的模型实现了比先前方法更快的推理运行时间,在 P100 GPU 上达到了每帧 44 毫秒的速度。

代码仓库

imatge-upc/rvos
官方
pytorch

基准测试

基准方法指标
one-shot-visual-object-segmentation-on-1RVOS-Mask-ST+
F-Measure (Seen): 67.2
F-Measure (Unseen): 51
Jaccard (Seen): 63.6
Jaccard (Unseen): 45.5
semi-supervised-video-object-segmentation-on-1RVOS
F-measure (Decay): 36.7
F-measure (Mean): 52.6
F-measure (Recall): 61.7
Ju0026F: 50.3
Jaccard (Decay): 35.7
Jaccard (Mean): 47.9
Jaccard (Recall): 54.4
unsupervised-video-object-segmentation-on-4RVOS
F-measure (Mean): 45.7
F-measure (Recall): 46.4
Ju0026F: 41.2
Jaccard (Mean): 36.8
Jaccard (Recall): 40.2
unsupervised-video-object-segmentation-on-5RVOS
F-measure (Decay): 1.8
F-measure (Mean): 27.3
F-measure (Recall): 24.8
Ju0026F: 22.5
Jaccard (Decay): 1.6
Jaccard (Mean): 17.7
Jaccard (Recall): 16.2
video-object-segmentation-on-youtube-vosRVOS
F-Measure (Seen): 67.2
F-Measure (Unseen): 51.0
Jaccard (Seen): 63.6
Overall: 56.8
Speed (FPS): 45.5
visual-object-tracking-on-davis-2017RVOS
F-measure (Decay): 28.2
F-measure (Mean): 63.6
F-measure (Recall): 73.2
Ju0026F: 60.55
Jaccard (Decay): 24.9
Jaccard (Mean): 57.5
Jaccard (Recall): 65.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RVOS:端到端循环网络用于视频对象分割 | 论文 | HyperAI超神经