
摘要
在本研究中,我们探讨了无监督视频对象分割问题,即在不依赖对象先验知识的情况下对运动物体进行分割。首先,我们提出了一种基于运动的双边网络,通过分析非对象区域的运动模式来估计背景。该双边网络通过精确识别背景区域,有效减少了误检区域。随后,我们将双边网络输出的背景估计结果与实例嵌入(instance embeddings)融合到一个图结构中,利用图边连接不同帧中的像素,从而实现跨多帧的推理。通过定义并最小化一个代价函数,对图中的节点进行分类,并根据节点标签完成视频帧的分割。所提出的方法在DAVIS 2016和FBMS-59数据集上均优于以往的最先进无监督视频对象分割方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-salient-object-detection-on-davis-2016 | MBNM | AVERAGE MAE: 0.031 MAX E-MEASURE: 0.966 MAX F-MEASURE: 0.862 S-Measure: 0.887 |
| video-salient-object-detection-on-davsod | MBNM | Average MAE: 0.109 S-Measure: 0.646 max E-Measure: 0.694 max F-Measure: 0.506 |
| video-salient-object-detection-on-davsod-1 | MBNM | Average MAE: 0.127 S-Measure: 0.597 max E-measure: 0.665 |
| video-salient-object-detection-on-fbms-59 | MBNM | AVERAGE MAE: 0.047 MAX E-MEASURE: 0.892 MAX F-MEASURE: 0.816 S-Measure: 0.857 |
| video-salient-object-detection-on-mcl | MBNM | AVERAGE MAE: 0.119 MAX E-MEASURE: 0.858 MAX F-MEASURE: 0.698 S-Measure: 0.755 |
| video-salient-object-detection-on-segtrack-v2 | MBNM | AVERAGE MAE: 0.026 MAX F-MEASURE: 0.716 S-Measure: 0.809 max E-measure: 0.878 |
| video-salient-object-detection-on-uvsd | MBNM | Average MAE: 0.079 S-Measure: 0.698 max E-measure: 0.776 |
| video-salient-object-detection-on-visal | MBNM | Average MAE: 0.047 S-Measure: 0.857 max E-measure: 0.892 |
| video-salient-object-detection-on-vos-t | MBNM | Average MAE: 0.099 S-Measure: 0.742 max E-measure: 0.797 |