
摘要
在视频对象分割(VOS)中,基于记忆的方法通过探索当前帧与过去帧之间的密集匹配以建模长距离上下文,最近展示了令人印象深刻的结果。然而,由于缺乏实例理解能力,这些方法在面对由物体和摄像机移动引起的大范围外观变化或视角变化时往往显得脆弱。本文认为,在VOS中实例理解至关重要,并且将其与基于记忆的匹配相结合可以实现协同效应,这从VOS任务的定义来看是直观合理的,即在视频中识别并分割对象实例。为此,我们提出了一种双分支网络用于VOS,其中查询基础的实例分割(IS)分支深入挖掘当前帧的实例细节,而VOS分支则与记忆库进行时空匹配。我们利用IS分支中学习到的对象查询来注入特定于实例的信息到查询键中,从而进一步执行增强实例的匹配。此外,我们引入了一个多路径融合模块,有效结合了从记忆库读取的信息与来自实例分割解码器的多尺度特征,将高分辨率的实例感知特征融入最终的分割结果中。我们的方法在DAVIS 2016/2017验证集(92.6% 和 87.1%)、DAVIS 2017测试开发集(82.8%)以及YouTube-VOS 2018/2019验证集(86.3% 和 86.3%)上取得了最先进的性能,明显优于其他方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-13 | ISVOS | F: 91.7 J: 88.3 Ju0026F: 90.0 |
| video-object-segmentation-on-davis-2016 | ISVOS (BL30K, MS) | F-Score: 94.2 Ju0026F: 93.4 Jaccard (Mean): 92.5 |
| visual-object-tracking-on-davis-2016 | ISVOS (BL30K, MS) | F-measure (Mean): 94.2 Ju0026F: 93.4 Jaccard (Mean): 92.5 |
| visual-object-tracking-on-davis-2017 | ISVOS (MS) | Ju0026F: 88.6 Jaccard (Mean): 85.8 Jaccard (Recall): 91.4 |
| visual-object-tracking-on-davis-2017 | ISVOS (BL30K, MS) | F-measure (Mean): 93.0 Ju0026F: 89.8 Jaccard (Mean): 86.7 |
| visual-object-tracking-on-davis-2017 | ISVOS (BL30K) | F-measure (Mean): 91.9 Ju0026F: 88.2 Jaccard (Mean): 84.5 |