3 个月前

一种通用的视频实例分割框架

一种通用的视频实例分割框架

摘要

近年来,长视频中复杂且存在遮挡的序列处理已成为视频实例分割(Video Instance Segmentation, VIS)领域面临的一项新挑战。然而,现有方法在应对这一挑战时仍存在明显局限。我们认为,当前方法最大的瓶颈在于训练与推理阶段之间的不一致性。为有效弥合这一差距,本文提出一种通用的VIS框架——GenVIS,该框架在无需设计复杂网络结构或额外后处理的情况下,即可在具有挑战性的基准测试中实现当前最优性能。GenVIS的核心贡献在于其创新的学习策略,包括一种基于查询的训练流程,用于实现序列化学习,并引入了一种新颖的目标标签分配机制。此外,我们还设计了一种记忆模块,能够有效获取并利用先前帧的状态信息。得益于这一新视角——即聚焦于分离帧或片段之间的关联建模,GenVIS可灵活地以在线(online)或半在线(semi-online)方式运行。我们在多个主流VIS基准数据集上对所提方法进行了评估,在YouTube-VIS 2019/2021/2022以及遮挡视频实例分割(Occluded VIS, OVIS)数据集上均取得了当前最优结果。尤为突出的是,在长视频VIS基准(OVIS)上,GenVIS相较现有最先进方法实现了显著提升,使用ResNet-50主干网络时,平均精度(AP)提升达5.6个百分点。代码已开源,地址为:https://github.com/miranheo/GenVIS。

代码仓库

miranheo/genvis
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-instance-segmentation-on-ovis-1GenVIS (Swin-L)
AP50: 69.2
AP75: 47.8
AR1: 18.9
AR10: 49.0
mask AP: 45.4
video-instance-segmentation-on-youtube-vis-2GenVIS (Swin-L)
AP50: 80.9
AP75: 66.5
AR1: 49.1
AR10: 64.7
mask AP: 60.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种通用的视频实例分割框架 | 论文 | HyperAI超神经