
摘要
我们发现,Mask2Former 在无需修改架构、损失函数甚至训练流程的情况下,也能在视频实例分割任务上达到当前最优性能。在本报告中,我们展示了通用图像分割架构可通过直接预测三维分割体积,极为自然地推广至视频分割任务。具体而言,Mask2Former 在 YouTubeVIS-2019 数据集上取得了 60.4 AP 的新最优成绩,在 YouTubeVIS-2021 数据集上达到 52.6 AP。鉴于其在图像分割任务中展现出的卓越泛化能力,我们相信 Mask2Former 同样具备处理视频语义分割与全景分割的潜力。我们期望这一成果能够使前沿视频分割研究更加易于获取,并推动学术界对通用图像与视频分割架构设计的更多关注。
代码仓库
pwc-1/Paper-5/tree/main/mask2former
mindspore
open-mmlab/mmdetection
pytorch
alibaba/EasyCV
pytorch
huggingface/transformers
pytorch
facebookresearch/Mask2Former
官方
pytorch
GitHub 中提及
nihalsid/mask2former
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-instance-segmentation-on-ovis-1 | Mask2Former-VIS | AP50: 36.9 AP75: 14.1 AR1: 9.9 AR10: 24.7 mask AP: 16.6 |
| video-instance-segmentation-on-youtube-vis-1 | Mask2Former (Swin-L) | AP50: 84.4 AP75: 67.0 mask AP: 60.4 |
| video-instance-segmentation-on-youtube-vis-1 | Mask2Former (ResNet-50) | AP50: 68.0 AP75: 50.0 mask AP: 46.4 |
| video-instance-segmentation-on-youtube-vis-1 | Mask2Former (ResNet-101) | AP50: 72.8 AP75: 54.2 mask AP: 49.2 |