摘要

实例嵌入的区分能力在在线视频实例分割（Online Video Instance Segmentation, VIS）中对于跨时间关联实例起着至关重要的作用。实例嵌入学习通过对比损失（contrastive loss）进行直接监督，该损失基于对比项（Contrastive Items, CIs）计算，而CIs由锚点（anchor）、正样本（positive）和负样本（negative）嵌入构成。近期的在线VIS方法仅从单一参考帧中获取CIs，我们认为这种做法不足以学习到具有高度判别性的嵌入表示。直观上，增强CIs的一种可行策略是在训练阶段复现推理过程。为此，我们提出一种简单而有效的训练策略——面向在线VIS的一致性训练（Consistent Training for Online VIS, CTVIS），其核心思想是使训练与推理阶段在构建CIs的流程上保持一致。具体而言，CTVIS通过参考动量平均嵌入（momentum-averaged embedding）与记忆库（memory bank）存储机制来构建CIs，并对相关嵌入添加噪声。这一设计使得当前实例的嵌入能够与历史实例的稳定表示进行可靠比对，从而在建模遮挡、重新识别和形变等VIS关键挑战方面具备显著优势。实验结果表明，CTVIS在三个主流VIS基准上均显著超越现有最先进方法，性能提升最高达+5.0个百分点，具体表现为：YTVIS19（55.1% AP）、YTVIS21（50.1% AP）和OVIS（35.5% AP）。此外，我们还发现，通过将图像转换为伪视频（pseudo-videos）进行训练，可获得超越全监督模型的鲁棒性表现。

源 PDF