
摘要
基于语言描述的视频目标分割(语言引导的VOS)任务,旨在给定一个语言短语和一段视频时,生成该短语所指对象的二值掩码。本文指出,当前用于该任务的主流基准数据集主要由简单案例构成,其中被指对象可通过简单短语即可识别。为此,我们提出了一种新的分类方法,将DAVIS-2017和Actor-Action数据集中的语言描述(Referring Expressions, REs)划分为“简单”与“非简单”两类,并对非简单REs进一步标注了七个语义类别。基于这一新标注数据,我们对一种新型神经网络模型RefVOS进行了分析。该模型在语言引导图像分割任务中取得了具有竞争力的性能,在语言引导视频目标分割任务中达到了当前最优水平。研究结果表明,该任务的主要挑战在于对运动动态及静态动作的理解。
代码仓库
miriambellver/refvos
官方
pytorch
GitHub 中提及
imatge-upc/refvos
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-a2d | RefVOS | IoU mean: 0.599 IoU overall: 0.599 Precision@0.5: 0.495 Precision@0.9: 0.064 |
| referring-expression-segmentation-on-a2dre | RefVos | Mean IoU: 33.2 Overall IoU: 47.5 |
| referring-expression-segmentation-on-davis | RefVOS | Ju0026F 1st frame: 44.5 Ju0026F Full video: 45.1 |
| referring-expression-segmentation-on-refcoco | RefVOS with BERT + MLM loss | Overall IoU: 59.45 |
| referring-expression-segmentation-on-refcoco | RefVOS with BERT Pre-train | Overall IoU: 58.65 |
| referring-expression-segmentation-on-refcoco-3 | RefVOS with BERT + MLM loss | Overall IoU: 44.71 |
| referring-expression-segmentation-on-refcoco-4 | RefVOS with BERT + MLM Loss | Overall IoU: 49.73 |
| referring-expression-segmentation-on-refcoco-5 | RefVOS with BERT + MLM loss | Overall IoU: 36.17 |