
摘要
近年来,长视频中复杂且存在遮挡的序列处理已成为视频实例分割(Video Instance Segmentation, VIS)领域面临的一项新挑战。然而,现有方法在应对这一挑战时仍存在明显局限。我们认为,当前方法最大的瓶颈在于训练与推理阶段之间的不一致性。为有效弥合这一差距,本文提出一种通用的VIS框架——GenVIS,该框架在无需设计复杂网络结构或额外后处理的情况下,即可在具有挑战性的基准测试中实现当前最优性能。GenVIS的核心贡献在于其创新的学习策略,包括一种基于查询的训练流程,用于实现序列化学习,并引入了一种新颖的目标标签分配机制。此外,我们还设计了一种记忆模块,能够有效获取并利用先前帧的状态信息。得益于这一新视角——即聚焦于分离帧或片段之间的关联建模,GenVIS可灵活地以在线(online)或半在线(semi-online)方式运行。我们在多个主流VIS基准数据集上对所提方法进行了评估,在YouTube-VIS 2019/2021/2022以及遮挡视频实例分割(Occluded VIS, OVIS)数据集上均取得了当前最优结果。尤为突出的是,在长视频VIS基准(OVIS)上,GenVIS相较现有最先进方法实现了显著提升,使用ResNet-50主干网络时,平均精度(AP)提升达5.6个百分点。代码已开源,地址为:https://github.com/miranheo/GenVIS。
代码仓库
miranheo/genvis
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-instance-segmentation-on-ovis-1 | GenVIS (Swin-L) | AP50: 69.2 AP75: 47.8 AR1: 18.9 AR10: 49.0 mask AP: 45.4 |
| video-instance-segmentation-on-youtube-vis-2 | GenVIS (Swin-L) | AP50: 80.9 AP75: 66.5 AR1: 49.1 AR10: 64.7 mask AP: 60.1 |