
摘要
多目标视频对象分割是一项具有挑战性的任务,特别是在零样本情况下,即在初始帧中没有提供任何对象掩码,模型需要在序列中找到要分割的对象。在我们的研究工作中,我们提出了一种完全端到端可训练的递归网络用于多目标视频对象分割(RVOS)。我们的模型在两个不同的域中引入了递归机制:(i) 空间域,这使得模型能够在单个帧内发现不同的对象实例;(ii) 时间域,这使得模型能够保持分割对象在时间上的连贯性。我们在零样本视频对象分割任务上对 RVOS 进行了训练,并首次报告了 DAVIS-2017 和 YouTube-VOS 基准测试的定量结果。此外,我们通过使用前一时间步获得的掩码作为递归模块的输入,将 RVOS 适应于单样本视频对象分割任务。我们的模型在 YouTube-VOS 基准测试中达到了与现有最先进技术相当的结果,并且在 DAVIS-2017 基准测试中超越了所有不使用在线学习的先前视频对象分割方法。此外,我们的模型实现了比先前方法更快的推理运行时间,在 P100 GPU 上达到了每帧 44 毫秒的速度。
代码仓库
imatge-upc/rvos
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| one-shot-visual-object-segmentation-on-1 | RVOS-Mask-ST+ | F-Measure (Seen): 67.2 F-Measure (Unseen): 51 Jaccard (Seen): 63.6 Jaccard (Unseen): 45.5 |
| semi-supervised-video-object-segmentation-on-1 | RVOS | F-measure (Decay): 36.7 F-measure (Mean): 52.6 F-measure (Recall): 61.7 Ju0026F: 50.3 Jaccard (Decay): 35.7 Jaccard (Mean): 47.9 Jaccard (Recall): 54.4 |
| unsupervised-video-object-segmentation-on-4 | RVOS | F-measure (Mean): 45.7 F-measure (Recall): 46.4 Ju0026F: 41.2 Jaccard (Mean): 36.8 Jaccard (Recall): 40.2 |
| unsupervised-video-object-segmentation-on-5 | RVOS | F-measure (Decay): 1.8 F-measure (Mean): 27.3 F-measure (Recall): 24.8 Ju0026F: 22.5 Jaccard (Decay): 1.6 Jaccard (Mean): 17.7 Jaccard (Recall): 16.2 |
| video-object-segmentation-on-youtube-vos | RVOS | F-Measure (Seen): 67.2 F-Measure (Unseen): 51.0 Jaccard (Seen): 63.6 Overall: 56.8 Speed (FPS): 45.5 |
| visual-object-tracking-on-davis-2017 | RVOS | F-measure (Decay): 28.2 F-measure (Mean): 63.6 F-measure (Recall): 73.2 Ju0026F: 60.55 Jaccard (Decay): 24.9 Jaccard (Mean): 57.5 Jaccard (Recall): 65.2 |