8 个月前

摘要

本文介绍了一种新的框架——情境感知视频实例分割（Context-Aware Video Instance Segmentation, CAVIS），该框架通过整合每个对象周围的上下文信息来增强实例关联。为了高效地提取和利用这些信息，我们提出了情境感知实例跟踪器（Context-Aware Instance Tracker, CAIT），它将实例周围的上下文数据与核心实例特征融合，以提高跟踪精度。此外，我们引入了原型跨帧对比损失（Prototypical Cross-frame Contrastive, PCC）损失函数，该函数确保了帧间对象级特征的一致性，从而显著提升了实例匹配的准确性。CAVIS在所有基准数据集上的视频实例分割（VIS）和视频全景分割（VPS）任务中均表现出优于现有最先进方法的性能。特别值得一提的是，我们的方法在OVIS数据集上表现尤为出色，该数据集以其特别具有挑战性的视频而闻名。

源 PDF