
摘要
直到最近,视频实例分割(VIS)社区普遍认为离线方法通常优于逐帧在线处理。然而,近期在线方法的成功对这一观点提出了质疑,尤其是在处理具有挑战性和较长的视频序列时。我们视这项工作为对这些最新观察结果的反驳,并呼吁社区关注专门的近在线VIS方法。为了支持我们的论点,我们展示了不同处理范式的详细分析以及新的端到端可训练的NOVIS(近在线视频实例分割)方法。我们的基于变压器的模型直接预测了帧片段的空间-时间掩码体积,并通过重叠嵌入在片段之间进行实例跟踪。NOVIS是首个避免任何手工设计跟踪启发式算法的近在线VIS方法。我们在现有所有VIS方法中大幅领先,并在YouTube-VIS(2019/2021)和OVIS基准测试中提供了最新的最佳结果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-instance-segmentation-on-ovis-1 | NOVIS (Swin-L) | AP50: 68.3 AP75: 43.8 AR1: 19.4 AR10: 46.9 mask AP: 43.5 |
| video-instance-segmentation-on-ovis-1 | NOVIS (ResNet-50) | AP50: 56.2 AP75: 32.6 AR1: 15.7 AR10: 37.1 mask AP: 32.7 |
| video-instance-segmentation-on-youtube-vis-1 | NOVIS (ResNet-50) | AP50: 75.7 AP75: 56.9 AR1: 50.3 AR10: 60.6 mask AP: 52.8 |
| video-instance-segmentation-on-youtube-vis-2 | NOVIS (Swin-L) | AP50: 82.0 AP75: 66.5 AR1: 47.9 AR10: 64.4 mask AP: 59.8 |
| video-instance-segmentation-on-youtube-vis-2 | NOVIS (ResNet-50) | AP50: 69.4 AP75: 50.0 AR1: 41.3 AR10: 54.4 mask AP: 47.2 |