
摘要
视频实例分割(Video Instance Segmentation, VIS)旨在对视频中每一帧的预定义类别实例进行精确分割并实现跨帧关联。以往的方法通常先对单帧或视频片段进行分割,再通过跟踪或匹配将不完整的分割结果进行合并,这一过程容易导致误差累积。与此相反,本文提出一种新范式——“Propose-Reduce”,通过单步操作直接生成输入视频的完整分割序列。此外,我们在现有的图像级实例分割网络基础上构建了一个序列传播头,以实现长期的时序传播。为确保所提框架的鲁棒性与高召回率,系统会生成多个候选序列,并对同一实例的冗余序列进行消减。在两个代表性基准数据集上,我们取得了当前最优的性能表现:在YouTube-VIS验证集上达到47.6%的AP指标,在DAVIS-UVOS验证集上获得70.4%的J&F指标。代码已开源,地址为:https://github.com/dvlab-research/ProposeReduce。
代码仓库
dvlab-research/proposereduce
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-video-object-segmentation-on-4 | Propose-Reduce | F-measure (Mean): 73.8 Ju0026F: 70.4 Jaccard (Mean): 67.0 |