6 个月前

摘要

现有的视频实例分割方法通常采用多阶段流水线，遵循“检测后跟踪”（tracking-by-detection）范式，并将视频片段建模为一系列图像序列。这些方法需使用多个网络在单帧中检测目标，再在时间维度上对检测结果进行关联。因此，这类方法通常难以端到端训练，且高度依赖于特定任务。本文提出一种新方法，适用于多种涉及视频实例分割的任务。具体而言，我们将视频片段建模为一个单一的三维时空体积（3D spatio-temporal volume），并提出一种新颖的一阶段方法，能够在时空维度上统一完成实例分割与跟踪。我们的方法核心思想是基于时空嵌入（spatio-temporal embeddings），通过训练使这些嵌入能够将属于同一目标实例的所有像素在整段视频中进行聚类。为此，我们引入了：(i) 一种新型的混合函数，用于增强时空嵌入的特征表示能力；(ii) 一个单阶段、无需候选框（proposal-free）的网络结构，能够有效建模时间上下文信息。该网络可端到端训练，同时学习时空嵌入及其聚类所需参数，从而显著简化推理过程。实验结果表明，该方法在多个数据集和任务上均取得了当前最优性能。代码与模型已开源，地址为：https://github.com/sabarim/STEm-Seg。

源 PDF