
摘要
视频实例分割(Video Instance Segmentation, VIS)旨在视频序列中联合完成多对象检测、跟踪与分割任务。以往的VIS方法在架构设计上沿袭了这些子任务的分离特性,因而未能实现真正的端到端联合求解。近年来,Transformer架构为将整个VIS任务统一建模为单一的集合预测问题提供了可能。然而,现有基于Transformer的方法普遍存在二次方复杂度问题,导致训练时间长、内存消耗高,并且通常仅处理单尺度特征图。可变形注意力机制(Deformable Attention)提供了一种更高效的替代方案,但其在时序建模或分割任务中的应用尚未得到充分探索。在本工作中,我们提出Deformable VIS(DeVIS),一种充分利用可变形Transformer在效率与性能方面优势的VIS方法。为在多帧间联合推理所有VIS子任务,我们设计了具有实例感知能力的时序多尺度可变形注意力机制。此外,我们引入了一种新型图像与视频实例分割头,能够融合多尺度特征,并结合多线索片段跟踪策略,实现近实时的视频处理。实验结果表明,DeVIS显著降低了内存占用与训练时间,同时在YouTube-VIS 2021和更具挑战性的OVIS数据集上均取得了当前最优的性能表现。代码已开源,地址为:https://github.com/acaelles97/DeVIS。
代码仓库
acaelles97/devis
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-instance-segmentation-on-ovis-1 | DeVIS (Swin-L) | AP50: 59.3 AP75: 38.3 AR1: 16.6 AR10: 39.8 mask AP: 35.5 |
| video-instance-segmentation-on-ovis-1 | DeVIS (ResNet-50) | AP50: 47.6 AP75: 20.8 AR1: 12.0 AR10: 28.9 mask AP: 23.7 |
| video-instance-segmentation-on-youtube-vis-1 | DeVIS (ResNet-50) | AP50: 66.7 AP75: 48.6 AR1: 42.4 AR10: 51.6 mask AP: 44.4 |
| video-instance-segmentation-on-youtube-vis-1 | DeVIS (Swin-L) | AP50: 80.8 AP75: 66.3 AR1: 50.8 AR10: 61.0 mask AP: 57.1 |
| video-instance-segmentation-on-youtube-vis-2 | DeVIS (Swin-L) | AP50: 77.7 AP75: 59.8 AR1: 43.8 AR10: 57.8 mask AP: 54.4 |
| video-instance-segmentation-on-youtube-vis-2 | DeVIS (ResNet-50) | AP50: 66.8 AP75: 46.6 AR1: 38.0 AR10: 50.1 mask AP: 43.1 |