
摘要
视频实例分割(VIS)是一项具有广泛应用的重要任务,包括自动驾驶和视频编辑。现有的方法在处理现实世界中的复杂和长视频时往往表现不佳,主要归因于两个因素。首先,离线方法受到紧密耦合建模范式的限制,该范式将所有帧视为同等重要,并忽略了相邻帧之间的相互依赖关系。因此,在长时间的时间对齐过程中引入了过多的噪声。其次,在线方法未能充分利用时间信息。为了解决这些挑战,我们提出了一种解耦策略,将VIS分解为三个独立的子任务:分割、跟踪和精炼。解耦策略的有效性取决于两个关键要素:1)通过逐帧关联在跟踪过程中实现精确的长时间对齐结果;2)在精炼过程中基于上述准确的对齐结果有效利用时间信息。我们引入了一种新颖的引用跟踪器和时间精炼器来构建解耦VIS框架(DVIS)。DVIS在VIS和VPS任务中均取得了新的最先进性能,在OVIS和VIPSeg数据集上分别超过了当前最先进方法7.3 AP和9.6 VPQ,这两个数据集是最具挑战性和现实性的基准测试。此外,得益于解耦策略,引用跟踪器和时间精炼器非常轻量级(仅占分割器FLOPs的1.69%),使得可以在单个11G内存的GPU上高效进行训练和推理。代码已发布在\href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS}。
代码仓库
zhang-tao-whu/DVIS
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-instance-segmentation-on-ovis-1 | DVIS(Swin-L, Offline) | AP50: 75.9 AP75: 53.0 AR1: 19.4 AR10: 55.3 mask AP: 49.9 |
| video-instance-segmentation-on-ovis-1 | DVIS(Swin-L, Online) | AP50: 71.9 AP75: 49.2 AR1: 19.4 AR10: 52.5 mask AP: 47.1 |
| video-instance-segmentation-on-youtube-vis-1 | DVIS | AP50: 88.0 AP75: 72.7 AR1: 56.5 AR10: 70.3 mask AP: 64.9 |
| video-instance-segmentation-on-youtube-vis-2 | DVIS(Swin-L) | AP50: 83.0 AP75: 68.4 AR1: 47.7 AR10: 65.7 mask AP: 60.1 |
| video-instance-segmentation-on-youtube-vis-3 | DVIS(Swin-L) | AP50_L: 69.0 AP75_L: 48.8 AR10_L: 51.8 AR1_L: 37.2 mAP_L: 45.9 |
| video-panoptic-segmentation-on-vipseg | DVIS(Swin-L) | STQ: 55.3 VPQ: 57.6 |