3 个月前

Mask2Former 用于视频实例分割

Mask2Former 用于视频实例分割

摘要

我们发现,Mask2Former 在无需修改架构、损失函数甚至训练流程的情况下,也能在视频实例分割任务上达到当前最优性能。在本报告中,我们展示了通用图像分割架构可通过直接预测三维分割体积,极为自然地推广至视频分割任务。具体而言,Mask2Former 在 YouTubeVIS-2019 数据集上取得了 60.4 AP 的新最优成绩,在 YouTubeVIS-2021 数据集上达到 52.6 AP。鉴于其在图像分割任务中展现出的卓越泛化能力,我们相信 Mask2Former 同样具备处理视频语义分割与全景分割的潜力。我们期望这一成果能够使前沿视频分割研究更加易于获取,并推动学术界对通用图像与视频分割架构设计的更多关注。

基准测试

基准方法指标
video-instance-segmentation-on-ovis-1Mask2Former-VIS
AP50: 36.9
AP75: 14.1
AR1: 9.9
AR10: 24.7
mask AP: 16.6
video-instance-segmentation-on-youtube-vis-1Mask2Former (Swin-L)
AP50: 84.4
AP75: 67.0
mask AP: 60.4
video-instance-segmentation-on-youtube-vis-1Mask2Former (ResNet-50)
AP50: 68.0
AP75: 50.0
mask AP: 46.4
video-instance-segmentation-on-youtube-vis-1Mask2Former (ResNet-101)
AP50: 72.8
AP75: 54.2
mask AP: 49.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Mask2Former 用于视频实例分割 | 论文 | HyperAI超神经