
摘要
本文探讨了在半监督设置下对类别无关对象进行分割的任务。尽管先前基于检测的方法取得了相对较好的性能,但这些方法通过贪婪策略提取最佳候选区域,可能会丢失所选候选区域之外的局部细节。为此,我们提出了一种新颖的空间时间图神经网络(STG-Net),用于视频对象分割中重建更精确的掩模,该网络通过利用所有候选区域来捕捉局部上下文信息。在空间图中,我们将一帧中的对象候选区域视为节点,并通过边权重策略表示它们之间的相关性,以聚合掩模上下文信息。为了从先前帧中捕获时间信息,我们使用记忆网络在时间图中检索历史掩模,从而精炼当前帧的掩模。空间局部细节和时间关系的联合使用使我们能够更好地应对诸如对象遮挡和缺失等挑战。无需在线学习和微调,我们的STG-Net在四个大型基准数据集(DAVIS、YouTube-VOS、SegTrack-v2和YouTube-Objects)上均达到了最先进的性能,证明了所提方法的有效性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-20 | STG-Net | D16 val (F): 86.0 D16 val (G): 85.7 D16 val (J): 85.4 D17 test (F): 66.5 D17 test (G): 63.1 D17 test (J): 59.7 D17 val (F): 77.9 D17 val (G): 74.7 D17 val (J): 71.5 |