
摘要
半监督视频对象分割(Semi-supervised Video Object Segmentation, VOS)是一项任务,即在第一帧中提供目标对象的真实分割掩码的情况下,预测视频中后续帧中该目标对象的分割结果。近年来,时空记忆网络(Space-Time Memory Networks, STM)因其出色的性能而成为解决半监督VOS问题的有前景方案。然而,在将STM应用于VOS任务时,一个关键问题被忽视了:STM本身具有非局部特性,而VOS任务本质上是局部性的。为解决STM与VOS之间的这一本质不匹配问题,我们提出了一种核化记忆网络(Kernelized Memory Network, KMN)。在真实视频上进行训练之前,我们的KMN首先在静态图像上进行预训练,这一策略延续了以往的工作。然而,与以往方法不同的是,我们在预训练阶段引入了“藏匿与寻找”(Hide-and-Seek)策略,以显著提升模型在处理遮挡情况以及精确提取分割边界方面的性能。实验结果表明,所提出的KMN在标准基准测试中显著超越现有最先进方法,尤其在DAVIS 2017测试开发集上取得了+5%的性能提升。此外,KMN在DAVIS 2016验证集上的单帧推理时间为0.12秒,且与STM相比,几乎不引入额外的计算开销,具有优异的实时性与效率。
代码仓库
hkchengrex/Mask-Propagation
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-1 | KMN | F-measure (Mean): 80.3 Ju0026F: 77.2 Jaccard (Mean): 74.1 |
| semi-supervised-video-object-segmentation-on-20 | KMN | D16 val (F): 88.1 D16 val (G): 87.6 D16 val (J): 87.1 D17 val (F): 77.8 D17 val (G): 76.0 D17 val (J): 74.2 FPS: 8.33 |
| video-object-segmentation-on-youtube-vos | KMN | F-Measure (Seen): 85.6 F-Measure (Unseen): 83.3 Jaccard (Seen): 81.4 Jaccard (Unseen): 75.3 Overall: 81.4 |
| visual-object-tracking-on-davis-2016 | KMN | F-measure (Mean): 91.5 Ju0026F: 90.5 Jaccard (Mean): 89.5 |
| visual-object-tracking-on-davis-2017 | KMN | F-measure (Mean): 85.6 Ju0026F: 82.8 Jaccard (Mean): 80 |