3 个月前

DeVIS:让可变形Transformer在视频实例分割中发挥作用

DeVIS:让可变形Transformer在视频实例分割中发挥作用

摘要

视频实例分割(Video Instance Segmentation, VIS)旨在视频序列中联合完成多对象检测、跟踪与分割任务。以往的VIS方法在架构设计上沿袭了这些子任务的分离特性,因而未能实现真正的端到端联合求解。近年来,Transformer架构为将整个VIS任务统一建模为单一的集合预测问题提供了可能。然而,现有基于Transformer的方法普遍存在二次方复杂度问题,导致训练时间长、内存消耗高,并且通常仅处理单尺度特征图。可变形注意力机制(Deformable Attention)提供了一种更高效的替代方案,但其在时序建模或分割任务中的应用尚未得到充分探索。在本工作中,我们提出Deformable VIS(DeVIS),一种充分利用可变形Transformer在效率与性能方面优势的VIS方法。为在多帧间联合推理所有VIS子任务,我们设计了具有实例感知能力的时序多尺度可变形注意力机制。此外,我们引入了一种新型图像与视频实例分割头,能够融合多尺度特征,并结合多线索片段跟踪策略,实现近实时的视频处理。实验结果表明,DeVIS显著降低了内存占用与训练时间,同时在YouTube-VIS 2021和更具挑战性的OVIS数据集上均取得了当前最优的性能表现。代码已开源,地址为:https://github.com/acaelles97/DeVIS。

代码仓库

acaelles97/devis
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-instance-segmentation-on-ovis-1DeVIS (Swin-L)
AP50: 59.3
AP75: 38.3
AR1: 16.6
AR10: 39.8
mask AP: 35.5
video-instance-segmentation-on-ovis-1DeVIS (ResNet-50)
AP50: 47.6
AP75: 20.8
AR1: 12.0
AR10: 28.9
mask AP: 23.7
video-instance-segmentation-on-youtube-vis-1DeVIS (ResNet-50)
AP50: 66.7
AP75: 48.6
AR1: 42.4
AR10: 51.6
mask AP: 44.4
video-instance-segmentation-on-youtube-vis-1DeVIS (Swin-L)
AP50: 80.8
AP75: 66.3
AR1: 50.8
AR10: 61.0
mask AP: 57.1
video-instance-segmentation-on-youtube-vis-2DeVIS (Swin-L)
AP50: 77.7
AP75: 59.8
AR1: 43.8
AR10: 57.8
mask AP: 54.4
video-instance-segmentation-on-youtube-vis-2DeVIS (ResNet-50)
AP50: 66.8
AP75: 46.6
AR1: 38.0
AR10: 50.1
mask AP: 43.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DeVIS:让可变形Transformer在视频实例分割中发挥作用 | 论文 | HyperAI超神经