
摘要
我们研究了零样本视频对象分割(VOS)这一具有挑战性的问题。具体而言,即在没有任何手动初始化的情况下,完全自动地对视频中的多个移动对象进行分割和跟踪。我们将此问题视为一个分组问题,通过利用对象建议并同时在空间和时间上进行联合推理来解决。我们提出了一种网络架构,以有效地执行建议选择和联合分组。关键在于,我们展示了如何使用强化学习训练该网络,使其能够学习出最优的非短视的分组决策序列,从而完成整个视频的分割。与传统的监督方法不同,这种方法还使我们能够直接优化用于评估VOS的不可微重叠度量指标。实验结果表明,我们提出的名为ALBA的方法在三个基准数据集上均优于之前的最先进方法:DAVIS 2017 [2]、FBMS [20] 和 Youtube-VOS [27]。
代码仓库
kini5gowda/ALBA-RL-for-VOS
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-video-object-segmentation-on-4 | ALBA | F-measure (Mean): 60.2 F-measure (Recall): 63.1 Ju0026F: 58.4 Jaccard (Mean): 56.6 Jaccard (Recall): 63.4 |