
摘要
我们考虑了图像中低层次结构检测的通用问题,这包括分割被操纵的部分、识别失焦像素、分离阴影区域以及检测隐藏物体。尽管每个此类主题通常都采用特定领域的解决方案,但我们展示了一种统一的方法在所有这些任务上均表现出色。我们从自然语言处理(NLP)中广泛使用的预训练和提示调优协议中获得灵感,提出了一种新的视觉提示模型,命名为显式视觉提示(EVP)。与之前的通常为数据集级别的隐式嵌入的视觉提示不同,我们的关键见解是强制可调参数专注于每张图像中的显式视觉内容,即来自冻结补丁嵌入的特征和输入的高频成分。所提出的EVP在相同数量的可调参数下显著优于其他参数高效的调优协议(每个任务额外增加5.7%的可训练参数)。与特定任务的解决方案相比,EVP还在各种低层次结构分割任务中实现了最先进的性能。我们的代码可在以下地址获取:https://github.com/NiFangBaAGe/Explicit-Visual-Prompt。
代码仓库
nifangbaage/explicit-visual-prompt
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| camouflaged-object-segmentation-on-camo | EVPv1 | MAE: 0.059 S-Measure: 0.846 Weighted F-Measure: 0.777 |
| camouflaged-object-segmentation-on-cod | EVPv1 | MAE: 0.029 S-Measure: 0.843 Weighted F-Measure: 0.742 |
| salient-object-detection-on-ecssd-1 | EVPv1 | E-measure: 0.957 MAE: 0.027 S-measure: 0.935 max_F1: 0.960 |
| salient-object-detection-on-hku-is-1 | EVPv1 | E-measure: 0.961 MAE: 0.024 S-measure: 0.931 max_F1: 0.952 |
| salient-object-detection-on-pascal-s-1 | EVPv1 | E-measure: 0.917 MAE: 0.054 S-measure: 0.878 max_F1: 0.872 |