
摘要
基于匹配的方法,尤其是基于时空记忆的方法,在半监督视频对象分割(VOS)中显著领先于其他解决方案。然而,不断增长和冗余的模板特征导致了推理效率低下。为了解决这一问题,我们提出了一种新颖的顺序加权期望最大化(Sequential Weighted Expectation-Maximization, SWEM)网络,以大幅减少记忆特征的冗余。与以往仅检测帧间特征冗余的方法不同,SWEM通过利用顺序加权EM算法合并帧内和帧间的相似特征。此外,自适应权重的帧特征赋予SWEM表示困难样本的灵活性,提高了模板的区分能力。此外,所提出的方法在内存中保持固定数量的模板特征,从而确保VOS系统的稳定推理复杂度。在常用的DAVIS和YouTube-VOS数据集上进行的大量实验验证了SWEM的高度效率(36 FPS)和高性能(在DAVIS 2017验证数据集上的$\mathcal{J}\&\mathcal{F}$得分为84.3%)。代码可在以下链接获取:https://github.com/lmm077/SWEM。
代码仓库
lmm077/SWEM
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-20 | SWEM | D16 val (F): 89.0 D16 val (G): 88.1 D16 val (J): 87.3 D17 val (F): 79.8 D17 val (G): 77.2 D17 val (J): 74.5 FPS: 36.0 |
| semi-supervised-video-object-segmentation-on-21 | SWEM | F: 54.9 J: 46.8 Ju0026F: 50.9 |
| visual-object-tracking-on-davis-2016 | SWEM (val) | F-measure (Mean): 89.0 Ju0026F: 88.1 Jaccard (Mean): 87.3 Speed (FPS): 36 |
| visual-object-tracking-on-davis-2017 | SWEM | F-measure (Mean): 79.8 Ju0026F: 77.2 Jaccard (Mean): 74.5 |