
摘要
我们提出了一种统一的指代性视频目标分割网络(Unified Referring Video Object Segmentation, URVOS)。URVOS以视频和指代表达式作为输入,能够在整个视频帧中估计出由给定语言表达所指代的{目标掩码}。为解决这一具有挑战性的问题,我们的算法通过一个单一的深度神经网络,结合两种注意力机制的合理设计,实现了基于语言的目标分割与掩码传播的联合建模。此外,我们构建了首个大规模指代性视频目标分割数据集——Refer-Youtube-VOS。我们在两个基准数据集(包括我们自建的数据集)上对模型进行了评估,充分验证了所提方法的有效性。该数据集已公开发布于:https://github.com/skynbe/Refer-Youtube-VOS。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-davis | URVOS + Refer-Youtube-VOS + ft. DAVIS | Ju0026F 1st frame: 51.63 |
| referring-expression-segmentation-on-davis | URVOS + Refer-Youtube-VOS | Ju0026F 1st frame: 46.85 |
| referring-expression-segmentation-on-davis | URVOS | Ju0026F 1st frame: 44.1 |
| referring-expression-segmentation-on-refer-1 | URVOS | F: 50.8 J: 47.0 Ju0026F: 48.9 |
| referring-video-object-segmentation-on-mevis | URVOS | F: 29.9 J: 25.7 Ju0026F: 27.8 |
| referring-video-object-segmentation-on-ref | URVOS | F: 56.0 J: 47.3 Ju0026F: 51.6 |