3 个月前

MinVIS:一种无需视频训练的最小化视频实例分割框架

MinVIS:一种无需视频训练的最小化视频实例分割框架

摘要

我们提出 MinVIS,一种极简的视频实例分割(Video Instance Segmentation, VIS)框架,在无需依赖视频专用架构或训练流程的情况下,实现了当前最优的 VIS 性能。通过仅训练一个基于查询的图像实例分割模型,MinVIS 在具有挑战性的遮挡视频实例分割(Occluded VIS)数据集上的表现优于此前最佳结果超过 10% 的 AP(平均精度)。由于 MinVIS 在训练过程中将视频帧视为独立图像,因此无需任何修改即可大幅降低标注帧的采样比例。仅使用 1% 的标注帧,MinVIS 在 YouTube-VIS 2019 和 2021 数据集上的性能即可超越或媲美完全监督的当前最优方法。我们的核心观察是:那些在帧内被训练为区分不同目标实例的查询,在时间维度上具有高度一致性,因而可直接用于实例追踪,而无需依赖人工设计的启发式规则。基于此,MinVIS 的推理流程如下:首先,将训练好的基于查询的图像实例分割模型独立应用于每一视频帧;随后,通过对应查询之间的二分图匹配实现实例追踪。该推理过程为在线处理方式,无需一次性处理整段视频。因此,MinVIS 在显著降低标注成本与内存需求的同时,保持了卓越的视频实例分割性能,具备良好的实际应用价值。代码已开源,地址为:https://github.com/NVlabs/MinVIS

代码仓库

nvlabs/minvis
官方
pytorch
GitHub 中提及
kimhanjung/visage
pytorch
GitHub 中提及

基准测试

基准方法指标
video-instance-segmentation-on-ovis-1MinVIS (Swin-L)
AP50: 61.5
AP75: 41.3
AR1: 18.1
AR10: 43.3
mask AP: 39.4
video-instance-segmentation-on-youtube-vis-1MinVIS (Swin-L)
AP50: 83.3
AP75: 68.6
AR1: 54.8
AR10: 66.6
mask AP: 61.6
video-instance-segmentation-on-youtube-vis-2MinVIS (Swin-L)
AP50: 76.6
AP75: 62
AR1: 45.9
AR10: 60.8
mask AP: 55.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MinVIS:一种无需视频训练的最小化视频实例分割框架 | 论文 | HyperAI超神经