
摘要
我们提出 MinVIS,一种极简的视频实例分割(Video Instance Segmentation, VIS)框架,在无需依赖视频专用架构或训练流程的情况下,实现了当前最优的 VIS 性能。通过仅训练一个基于查询的图像实例分割模型,MinVIS 在具有挑战性的遮挡视频实例分割(Occluded VIS)数据集上的表现优于此前最佳结果超过 10% 的 AP(平均精度)。由于 MinVIS 在训练过程中将视频帧视为独立图像,因此无需任何修改即可大幅降低标注帧的采样比例。仅使用 1% 的标注帧,MinVIS 在 YouTube-VIS 2019 和 2021 数据集上的性能即可超越或媲美完全监督的当前最优方法。我们的核心观察是:那些在帧内被训练为区分不同目标实例的查询,在时间维度上具有高度一致性,因而可直接用于实例追踪,而无需依赖人工设计的启发式规则。基于此,MinVIS 的推理流程如下:首先,将训练好的基于查询的图像实例分割模型独立应用于每一视频帧;随后,通过对应查询之间的二分图匹配实现实例追踪。该推理过程为在线处理方式,无需一次性处理整段视频。因此,MinVIS 在显著降低标注成本与内存需求的同时,保持了卓越的视频实例分割性能,具备良好的实际应用价值。代码已开源,地址为:https://github.com/NVlabs/MinVIS
代码仓库
nvlabs/minvis
官方
pytorch
GitHub 中提及
kimhanjung/visage
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-instance-segmentation-on-ovis-1 | MinVIS (Swin-L) | AP50: 61.5 AP75: 41.3 AR1: 18.1 AR10: 43.3 mask AP: 39.4 |
| video-instance-segmentation-on-youtube-vis-1 | MinVIS (Swin-L) | AP50: 83.3 AP75: 68.6 AR1: 54.8 AR10: 66.6 mask AP: 61.6 |
| video-instance-segmentation-on-youtube-vis-2 | MinVIS (Swin-L) | AP50: 76.6 AP75: 62 AR1: 45.9 AR10: 60.8 mask AP: 55.3 |