
摘要
使用自蒸馏损失(DINO)进行自监督学习训练的Transformer已被证明可以生成突出显著前景物体的注意力图。在本文中,我们展示了一种基于图的方法,该方法利用自监督Transformer特征从图像中发现物体。视觉标记被视为加权图中的节点,边则表示基于标记相似性的连通性得分。通过归一化的图割对自相似区域进行分组,从而实现前景物体的分割。我们使用谱聚类和广义特征分解来解决图割问题,并展示了第二小的特征向量提供了一个切割方案,因为其绝对值指示了某个标记属于前景物体的可能性。尽管该方法简单,但显著提升了无监督物体发现的性能:我们在VOC07、VOC12和COCO20K数据集上分别比最近的最先进方法LOST提高了6.9%、8.1%和8.1%。通过添加一个第二阶段的类别无关检测器(CAD),性能可以进一步提升。我们提出的方法可以轻松扩展到无监督显著性检测和弱监督物体检测。对于无监督显著性检测,我们在ECSSD、DUTS和DUT-OMRON数据集上相比之前的最先进方法分别提高了4.9%、5.2%和12.9%的IoU指标。对于弱监督物体检测,我们在CUB和ImageNet数据集上取得了具有竞争力的性能。
代码仓库
YangtaoWANG95/TokenCut
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| single-object-discovery-on-coco-20k | TokenCut + CAD | CorLoc: 62.6 |
| single-object-discovery-on-coco-20k | TokenCut | CorLoc: 58.8 |
| unsupervised-saliency-detection-on-dut-omron | TokenCut | Accuracy: 89.7 IoU: 61.8 maximal F-measure: 69.7 |
| unsupervised-saliency-detection-on-duts | TokenCut | Accuracy: 91.4 IoU: 62.4 maximal F-measure: 75.5 |
| unsupervised-saliency-detection-on-ecssd | TokenCut | Accuracy: 93.4 IoU: 77.2 maximal F-measure: 87.4 |
| weakly-supervised-object-localization-on-2 | TokenCut | GT-known localization accuracy: 65.4 Top-1 Localization Accuracy: 52.3 |
| weakly-supervised-object-localization-on-cub | TokenCut | Top-1 Localization Accuracy: 72.9 |
| weakly-supervised-object-localization-on-cub-1 | TokenCut | Top-1 Localization Accuracy: 72.9 |