
摘要
深度学习的最新进展在视觉定位任务(如语言引导的视频目标分割)中取得了显著进步。然而,为这些任务收集大规模数据集在标注时间上成本高昂,成为制约发展的瓶颈。为此,我们提出了一种新颖的方法——SynthRef,用于生成图像(或视频帧)中目标对象的合成指代表达(synthetic referring expressions),并首次发布了一个包含合成指代表达的大规模视频目标分割数据集。实验结果表明,仅使用我们生成的合成指代表达进行训练,即可显著提升模型在不同数据集间的泛化能力,且无需额外的标注成本。此外,我们的方法具有通用性,可适用于任意目标检测或分割数据集。
代码仓库
imatge-upc/synthref
官方
pytorch
miriambellver/refvos
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-davis | RefVOS | Ju0026F 1st frame: 45.1 |
| referring-expression-segmentation-on-davis | RefVOS + SynthRef-YouTube-VIS | Ju0026F 1st frame: 45.3 Ju0026F Full video: 44.8 |
| referring-expression-segmentation-on-refer | RefVOS-Human REs | Mean IoU: 39.5 Precision@0.5: 38.6 Precision@0.9: 6.9 |
| referring-expression-segmentation-on-refer | RefVOS-Synthetic REs | Mean IoU: 35.0 Precision@0.5: 32.3 Precision@0.9: 1.8 |