
摘要
大多数最先进的半监督视频对象分割方法依赖于为视频第一帧提供的目标对象的像素级精确掩膜。然而,获取详细的分割掩膜既昂贵又耗时。在这项工作中,我们探索了一种替代的目标对象识别方法,即通过使用语言指代表达来识别目标对象。除了是一种更为实用和自然的指出目标对象的方式外,使用语言描述还可以帮助避免漂移,并使系统在面对复杂动态和外观变化时更加鲁棒。利用近期图像领域的语言定位模型的进展,我们提出了一种将其扩展到视频数据的方法,以确保时间上的连贯预测。为了评估我们的方法,我们在流行的视频对象分割基准数据集DAVIS'16和DAVIS'17中增加了目标对象的语言描述。实验结果表明,我们的基于语言监督的方法在DAVIS'16上的性能与那些可以访问目标对象像素级掩膜的方法相当,并且在具有挑战性的DAVIS'17数据集上与使用涂鸦的方法具有竞争力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-davis | Khoreva et al. | Ju0026F 1st frame: 39.3 Ju0026F Full video: 37.1 |
| video-object-segmentation-on-davis-2016 | VOSwL (Language) | mIoU: 82.8 |
| video-object-segmentation-on-davis-2016 | VOSwL (Mask+Language) | mIoU: 84.5 |
| video-object-segmentation-on-davis-2017 | VOSwL (Mask+Language) | Ju0026F: 62.2 mIoU: 59 |
| visual-object-tracking-on-davis-2016 | VOSwL | F-measure (Decay): 8.6 F-measure (Mean): 84.2 F-measure (Recall): 93.9 Ju0026F: 83.65 Jaccard (Decay): 6.9 Jaccard (Mean): 83.1 Jaccard (Recall): 95.7 |
| visual-object-tracking-on-davis-2017 | VOSwL | F-measure (Decay): 24.5 F-measure (Mean): 63.5 F-measure (Recall): 70.4 Jaccard (Decay): 22.4 Jaccard (Recall): 66.1 |
| visual-object-tracking-on-davis-2017 | VOSwL (Language) | Ju0026F: 60.8 Jaccard (Mean): 58.0 |