
摘要
近年来,许多成功的视频对象分割(VOS)方法过于复杂,严重依赖于对第一帧的微调,且速度较慢,因此在实际应用中受到一定限制。在本研究中,我们提出了一种简单快速的方法——FEELVOS,该方法不依赖于微调。为了对视频进行分割,FEELVOS 在每一帧中使用了语义像素级嵌入以及全局和局部匹配机制,从视频的第一帧和前一帧向当前帧传递信息。与以往的工作不同,我们的嵌入仅作为卷积网络内部的引导。我们提出的新型动态分割头允许我们使用交叉熵损失端到端地训练网络,包括嵌入部分,以完成多对象分割任务。我们在不进行微调的情况下,在DAVIS 2017验证集上取得了71.5%的J&F指标的新纪录。我们的代码和模型已公开发布在 https://github.com/tensorflow/models/tree/master/research/feelvos。
代码仓库
kim-younghan/FEELVOS
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-1 | FEELVOS | F-measure (Decay): 33.5 F-measure (Mean): 60.4 F-measure (Recall): 68.5 Ju0026F: 57.8 Jaccard (Decay): 29.8 Jaccard (Mean): 55.1 Jaccard (Recall): 62.6 |
| semi-supervised-video-object-segmentation-on-20 | FEELVOS | D16 val (F): 83.1 D16 val (G): 81.7 D16 val (J): 80.3 D17 test (F): 57.5 D17 test (G): 54.4 D17 test (J): 51.2 D17 val (F): 72.3 D17 val (G): 69.1 D17 val (J): 65.9 FPS: 2.22 |
| video-object-segmentation-on-youtube | FEELVOS | mIoU: 0.821 |
| visual-object-tracking-on-davis-2016 | FEELVOS | F-measure (Decay): 14.1 F-measure (Mean): 82.2 F-measure (Recall): 86.6 Ju0026F: 81.65 Jaccard (Decay): 13.7 Jaccard (Mean): 81.1 Jaccard (Recall): 90.5 |
| visual-object-tracking-on-davis-2017 | FEELVOS | F-measure (Decay): 20.1 F-measure (Mean): 74.0 F-measure (Recall): 83.8 Ju0026F: 71.55 Jaccard (Decay): 17.5 Jaccard (Mean): 69.1 Jaccard (Recall): 79.1 |