4 个月前

基于组的分割统一Transformer框架:共分割、共显著性检测和视频显著物体检测

基于组的分割统一Transformer框架:共分割、共显著性检测和视频显著物体检测

摘要

人类倾向于通过学习一组图像或几帧视频来挖掘对象,因为我们生活在一个动态的世界中。在计算机视觉领域,许多研究集中在共分割(CoS)、共显著性检测(CoSD)和视频显著对象检测(VSOD)上,以发现共同出现的对象。然而,以往的方法为这些相似的任务设计了不同的网络,难以相互应用,这降低了深度学习框架的可迁移性的上限。此外,它们未能充分利用组内图像之间的内部特征和外部特征之间的线索。本文介绍了一种统一框架来解决这些问题,称为UFO(用于共对象分割的统一框架)。具体而言,我们首先引入了一个变压器模块,该模块将图像特征视为补丁标记,然后通过自注意力机制捕捉其长程依赖关系。这有助于网络挖掘相关对象之间的补丁结构相似性。此外,我们提出了一种内部MLP学习模块来生成自掩码,以增强网络避免部分激活的能力。我们在四个共分割基准数据集(PASCAL、iCoseg、Internet和MSRC)、三个共显著性检测基准数据集(Cosal2015、CoSOD3k和CocA)以及四个视频显著对象检测基准数据集(DAVIS16、FBMS、ViSal和SegV2)上进行了广泛的实验,结果表明我们的方法在这三项不同任务中均优于其他最先进方法,在精度和速度方面表现出色,并且可以实现实时140帧每秒的处理速度。

代码仓库

suyukun666/UFO
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
co-salient-object-detection-on-cocaUFO
MAE: 0.095
Mean F-measure: 0.555
S-measure: 0.697
max E-measure: 0.782
max F-measure: 0.571
mean E-measure: 0.762
co-salient-object-detection-on-cosal2015UFO
MAE: 0.064
S-measure: 0.860
max E-measure: 0.906
max F-measure: 0.865
mean E-measure: 0.889
mean F-measure: 0.848
co-salient-object-detection-on-cosod3kUFO
MAE: 0.073
S-measure: 0.819
max E-measure: 0.874
max F-measure: 0.797
mean E-measure: 0.855
mean F-measure: 0.783
co-salient-object-detection-on-icosegUFO
MAE: 0.029
S-measure: 0.924
max E-measure: 0.969
max F-measure: 0.953
video-salient-object-detection-on-davis-2016UFO
AVERAGE MAE: 0.015
MAX F-MEASURE: 0.906
S-Measure: 0.918
video-salient-object-detection-on-fbms-59UFO
AVERAGE MAE: 0.028
MAX F-MEASURE: 0.890
S-Measure: 0.894
video-salient-object-detection-on-segtrack-v2UFO
AVERAGE MAE: 0.022
MAX F-MEASURE: 0.863
S-Measure: 0.892
video-salient-object-detection-on-visalUFO
Average MAE: 0.011
S-Measure: 0.953
max E-measure: 0.987

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于组的分割统一Transformer框架:共分割、共显著性检测和视频显著物体检测 | 论文 | HyperAI超神经