
摘要
我们提出了一种全新的离线视频实例分割(Offline Video Instance Segmentation, VIS)范式,其核心假设是:显式的面向对象信息可作为理解整个视频序列上下文的强有力线索。为此,我们提出了VITA——一种基于现成的基于Transformer的图像实例分割模型构建的简洁结构。具体而言,我们利用图像目标检测器将特定于对象的上下文信息提炼为对象令牌(object tokens)。VITA通过在帧级别关联对象令牌来实现视频级别的理解,而无需依赖时空主干特征。通过有效利用压缩后的信息建立对象之间的关联关系,VITA在采用ResNet-50主干网络的情况下,在主流VIS基准上取得了当前最优性能:在YouTube-VIS 2019与2021数据集上分别达到49.8 AP和45.7 AP,在OVIS数据集上达到19.6 AP。此外,得益于其基于对象令牌的结构与主干特征解耦的特性,VITA展现出若干此前离线VIS方法尚未探索的实际优势——能够在单一GPU上处理长视频与高分辨率视频,并可冻结在图像域上训练好的帧级检测器。代码已开源,地址为:https://github.com/sukjunhwang/VITA。
代码仓库
sukjunhwang/vita
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-instance-segmentation-on-ovis-1 | VITA (Swin-L) | AP50: 51.9 AP75: 24.9 AR1: 14.9 AR10: 33.0 mask AP: 27.7 |
| video-instance-segmentation-on-youtube-vis-2 | VITA (Swin-L) | AP50: 80.6 AP75: 61.0 AR1: 47.7 AR10: 62.6 mask AP: 57.5 |