
摘要
本文研究了半监督视频对象分割(VOS)的问题。多项研究表明,基于记忆的方法在视频对象分割中可以非常有效。这些方法大多依赖于像素级别的匹配,包括空间和时间维度。基于记忆方法的主要缺点在于它们没有考虑帧之间的顺序关系,也没有充分利用目标对象层面的知识。为了解决这一局限性,我们提出了一种学习位置和目标一致性框架用于基于记忆的视频对象分割,简称LCM。该框架利用记忆机制进行全局像素检索,同时学习位置一致性以实现更可靠的分割。学习到的位置响应有助于更好地区分目标和干扰物。此外,LCM引入了从目标对象层面的关系来维持目标的一致性,使得LCM对误差漂移更加鲁棒。实验结果表明,我们的LCM在DAVIS和YouTube-VOS基准上均达到了最先进的性能,并且在DAVIS 2020挑战赛的半监督VOS任务中排名第一。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-20 | LCM | D17 val (F): 77.2 D17 val (G): 75.2 D17 val (J): 73.1 FPS: 8.47 |