
摘要
我们致力于解决半监督视频对象分割任务,即利用第一帧的地面真值像素掩模来分割视频中属于某一对象的像素。我们在最近提出的单次视频对象分割(OSVOS)方法的基础上进行研究,该方法使用预训练网络并在第一帧上对其进行微调。尽管OSVOS取得了令人印象深刻的效果,但在测试时它以不变的形式使用微调后的网络,无法适应对象外观的大幅变化。为了解决这一局限性,我们提出了一种在线自适应视频对象分割(OnAVOS)方法,该方法通过基于网络置信度和空间配置选择的训练样本来在线更新网络。此外,我们还增加了一个基于对象性的预训练步骤,该步骤是在PASCAL数据集上学习得到的。实验结果表明,这两种扩展都非常有效,并将DAVIS数据集上的最新技术水平提升至85.7%的交并比分数。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-1 | OnAVOS | F-measure (Decay): 23.4 F-measure (Recall): 60.3 Ju0026F: 52.8 Jaccard (Decay): 23.0 Jaccard (Mean): 49.9 Jaccard (Recall): 54.3 |
| video-object-segmentation-on-youtube | OnAVOS | mIoU: 0.774 |
| visual-object-tracking-on-davis-2016 | OnAVOS | F-measure (Decay): 5.8 F-measure (Mean): 84.9 F-measure (Recall): 89.7 Ju0026F: 85.5 Jaccard (Decay): 5.2 Jaccard (Mean): 86.1 Jaccard (Recall): 96.1 |
| visual-object-tracking-on-davis-2017 | OnAVOS | F-measure (Decay): 26.6 F-measure (Mean): 69.1 F-measure (Recall): 75.4 Ju0026F: 65.35 Jaccard (Decay): 27.9 Jaccard (Mean): 61.6 Jaccard (Recall): 67.4 |
| visual-object-tracking-on-youtube-vos | OnAVOS | F-Measure (Seen): 62.7 F-Measure (Unseen): 51.4 Jaccard (Seen): 60.1 Jaccard (Unseen): 46.6 O (Average of Measures): 55.2 |