
摘要
无监督视频对象分割通常采用基于循环神经网络(RNN)和光流的方法来解决。尽管这些方法结构复杂,但往往更倾向于建模短期时序依赖关系,因而容易产生误差累积,导致随时间推移出现漂移现象。此外,仅使用简单(静态)图像分割模型,其性能已能与这些复杂方法相媲美,这进一步表明,当前对时序依赖关系的建模方式亟需重新审视。基于上述观察,本文探索了简单而有效的策略,用于建模长期时序依赖关系。受文献[70]中非局部算子的启发,我们提出一种技术,能够在参考“锚点”帧与当前帧的像素嵌入之间建立密集对应关系。该方法无需依赖中间帧,即可实现任意远距离的像素对之间依赖关系的学习。在无需在线监督的情况下,我们的方法能够有效抑制背景,精确分割前景对象,即使在复杂场景下也能保持稳定一致的性能表现。在DAVIS-2016无监督方法排行榜上,本方法以81.7%的平均交并比(mean IoU)位居第一,同时在性能上仍可与当前最先进的在线半监督方法相抗衡。此外,我们在FBMS数据集和ViSal视频显著性数据集上进一步评估了该方法,结果表明其性能达到或接近当前最先进水平。
代码仓库
yz93/anchor-diff-VOS
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-video-object-segmentation-on-10 | AD-Net | F: 80.5 G: 81.1 J: 81.7 |