
摘要
我们提出了解耦视频分割(DVIS)框架,这是一种新颖的方法,用于解决普遍视频分割这一具有挑战性的任务,包括视频实例分割(VIS)、视频语义分割(VSS)和视频全景分割(VPS)。与以往将视频分割建模为端到端任务的方法不同,我们的方法将视频分割分解为三个级联的子任务:分割、跟踪和优化。这种解耦设计使得在复杂场景和长视频中对物体的空间-时间表示进行更简单且有效的建模成为可能。为此,我们引入了两个新的组件:指代跟踪器和时间优化器。这些组件逐帧跟踪物体,并基于预对齐的特征建模空间-时间表示。为了提高DVIS的跟踪能力,我们提出了一种去噪训练策略并引入了对比学习,从而构建了一个更加鲁棒的框架——DVIS++。此外,我们在多种设置下评估了DVIS++,包括开放词汇表和使用冻结的预训练骨干网络。通过将CLIP与DVIS++结合,我们推出了OV-DVIS++,这是首个开放词汇表的普遍视频分割框架。我们在六个主流基准数据集上进行了广泛的实验,包括VIS、VSS和VPS数据集。采用统一架构的DVIS++在这类基准测试中显著优于现有的专门方法,在闭合词汇表和开放词汇表设置下均表现出色。代码:https://github.com/zhang-tao-whu/DVIS_Plus
代码仓库
zhang-tao-whu/DVIS_Plus
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-instance-segmentation-on-ovis-1 | DVIS++(R50, Online) | AP50: 62.8 AP75: 37.3 AR1: 15.8 AR10: 42.9 mask AP: 37.2 |
| video-instance-segmentation-on-ovis-1 | DVIS++(R50, Offline) | AP50: 68.9 AP75: 40.9 AR1: 16.8 AR10: 47.3 mask AP: 41.2 |
| video-instance-segmentation-on-ovis-1 | DVIS++(VIT-L,Offline) | AP50: 78.9 AP75: 58.5 mask AP: 53.4 |
| video-instance-segmentation-on-ovis-1 | DVIS++(VIT-L, Online) | AP50: 72.5 AP75: 55.0 APho: 27.1 APmo: 56.6 APso: 69.9 AR1: 20.8 AR10: 54.6 mask AP: 49.6 |
| video-instance-segmentation-on-youtube-vis-1 | DVIS++(VIT-L, Online) | AP50: 88.8 AP75: 75.3 AR1: 57.9 AR10: 73.7 mask AP: 67.7 |
| video-instance-segmentation-on-youtube-vis-2 | DVIS++(VIT-L, Online) | AP50: 82.7 AP75: 70.2 AR1: 49.5 AR10: 68.0 mask AP: 62.3 |
| video-instance-segmentation-on-youtube-vis-2 | DVIS++(VIT-L, Offline) | AP50: 86.7 AP75: 71.5 AR1: 48.8 AR10: 69.5 mask AP: 63.9 |
| video-instance-segmentation-on-youtube-vis-3 | DVIS++(VIT-L) | AP50_L: 75.7 AP75_L: 52.8 AR10_L: 55.8 AR1_L: 40.6 mAP_L: 50.9 |
| video-panoptic-segmentation-on-vipseg | DVIS++(VIT-L) | STQ: 56.0 VPQ: 58.0 |
| video-semantic-segmentation-on-vspw | DVIS++(VIT-L) | mIoU: 63.8 |