
摘要
人类倾向于通过学习一组图像或几帧视频来挖掘对象,因为我们生活在一个动态的世界中。在计算机视觉领域,许多研究集中在共分割(CoS)、共显著性检测(CoSD)和视频显著对象检测(VSOD)上,以发现共同出现的对象。然而,以往的方法为这些相似的任务设计了不同的网络,难以相互应用,这降低了深度学习框架的可迁移性的上限。此外,它们未能充分利用组内图像之间的内部特征和外部特征之间的线索。本文介绍了一种统一框架来解决这些问题,称为UFO(用于共对象分割的统一框架)。具体而言,我们首先引入了一个变压器模块,该模块将图像特征视为补丁标记,然后通过自注意力机制捕捉其长程依赖关系。这有助于网络挖掘相关对象之间的补丁结构相似性。此外,我们提出了一种内部MLP学习模块来生成自掩码,以增强网络避免部分激活的能力。我们在四个共分割基准数据集(PASCAL、iCoseg、Internet和MSRC)、三个共显著性检测基准数据集(Cosal2015、CoSOD3k和CocA)以及四个视频显著对象检测基准数据集(DAVIS16、FBMS、ViSal和SegV2)上进行了广泛的实验,结果表明我们的方法在这三项不同任务中均优于其他最先进方法,在精度和速度方面表现出色,并且可以实现实时140帧每秒的处理速度。
代码仓库
suyukun666/UFO
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| co-salient-object-detection-on-coca | UFO | MAE: 0.095 Mean F-measure: 0.555 S-measure: 0.697 max E-measure: 0.782 max F-measure: 0.571 mean E-measure: 0.762 |
| co-salient-object-detection-on-cosal2015 | UFO | MAE: 0.064 S-measure: 0.860 max E-measure: 0.906 max F-measure: 0.865 mean E-measure: 0.889 mean F-measure: 0.848 |
| co-salient-object-detection-on-cosod3k | UFO | MAE: 0.073 S-measure: 0.819 max E-measure: 0.874 max F-measure: 0.797 mean E-measure: 0.855 mean F-measure: 0.783 |
| co-salient-object-detection-on-icoseg | UFO | MAE: 0.029 S-measure: 0.924 max E-measure: 0.969 max F-measure: 0.953 |
| video-salient-object-detection-on-davis-2016 | UFO | AVERAGE MAE: 0.015 MAX F-MEASURE: 0.906 S-Measure: 0.918 |
| video-salient-object-detection-on-fbms-59 | UFO | AVERAGE MAE: 0.028 MAX F-MEASURE: 0.890 S-Measure: 0.894 |
| video-salient-object-detection-on-segtrack-v2 | UFO | AVERAGE MAE: 0.022 MAX F-MEASURE: 0.863 S-Measure: 0.892 |
| video-salient-object-detection-on-visal | UFO | Average MAE: 0.011 S-Measure: 0.953 max E-measure: 0.987 |