6 个月前

摘要

视频实例分割（Video Instance Segmentation, VIS）旨在视频序列中联合完成多对象检测、跟踪与分割任务。以往的VIS方法在架构设计上沿袭了这些子任务的分离特性，因而未能实现真正的端到端联合求解。近年来，Transformer架构为将整个VIS任务统一建模为单一的集合预测问题提供了可能。然而，现有基于Transformer的方法普遍存在二次方复杂度问题，导致训练时间长、内存消耗高，并且通常仅处理单尺度特征图。可变形注意力机制（Deformable Attention）提供了一种更高效的替代方案，但其在时序建模或分割任务中的应用尚未得到充分探索。在本工作中，我们提出Deformable VIS（DeVIS），一种充分利用可变形Transformer在效率与性能方面优势的VIS方法。为在多帧间联合推理所有VIS子任务，我们设计了具有实例感知能力的时序多尺度可变形注意力机制。此外，我们引入了一种新型图像与视频实例分割头，能够融合多尺度特征，并结合多线索片段跟踪策略，实现近实时的视频处理。实验结果表明，DeVIS显著降低了内存占用与训练时间，同时在YouTube-VIS 2021和更具挑战性的OVIS数据集上均取得了当前最优的性能表现。代码已开源，地址为：https://github.com/acaelles97/DeVIS。

源 PDF