
摘要
视频分割的目标是在多种场景中准确地分割和跟踪每一个像素。本文提出了一种多功能框架——Tube-Link,该框架通过统一的架构解决了视频分割中的多个核心任务。我们的框架是一种准在线方法,以短子片段作为输入,输出相应的时空管状掩模。为了增强跨管关系的建模,我们提出了一种通过沿查询进行注意力机制的有效方法来实现管级链接。此外,我们引入了时间对比学习,以实例为单位生成判别特征,用于管级关联。我们的方法在处理短视频和长视频输入时都具有灵活性和高效性,因为每个子片段的长度可以根据数据集或场景的需求进行调整。Tube-Link 在五个视频分割数据集上显著超越了现有的专用架构。具体而言,在 VIPSeg 数据集上相对于强大的基线模型 Video K-Net 实现了近 13% 的相对提升,在 KITTI-STEP 数据集上实现了 4% 的提升。当使用 ResNet50 作为主干网络时,Tube-Link 在 Youtube-VIS-2019 和 2021 数据集上分别将 IDOL 提升了 3% 和 4%。
代码仓库
lxtgh/tube-link
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-instance-segmentation-on-ovis-1 | Tube-Link(ResNet-50) | AP50: 51.5 AP75: 30.2 AR1: 15.5 AR10: 34.5 mask AP: 29.5 |
| video-instance-segmentation-on-youtube-vis-1 | Tube-Link | AP50: 86.6 AP75: 71.3 AR1: 55.9 AR10: 69.1 mask AP: 64.6 |
| video-instance-segmentation-on-youtube-vis-2 | Tube-Link(Swin-L) | AP50: 79.4 AP75: 64.3 AR1: 47.5 AR10: 63.6 mask AP: 58.4 |
| video-panoptic-segmentation-on-kitti-step | Tube-Link(Swin-base) | AQ: 69.0 SQ: 74.0 STQ: 72.0 |
| video-panoptic-segmentation-on-vipseg | Tube-Link(Swin-base) | STQ: 49.4 VPQ: 50.4 |
| video-semantic-segmentation-on-vspw | Tube-Link(Swin-large) | mIoU: 59.6 |