
摘要
前景分割是计算机视觉中的一个基本问题,包括显著目标检测、伪造检测、散焦模糊检测、阴影检测和伪装目标检测。以往的研究通常依赖于特定领域的解决方案来解决这些应用中的准确性和鲁棒性问题。在本文中,我们提出了一种统一框架,用于处理多个前景分割任务,而无需任何特定任务的设计。我们从自然语言处理(NLP)中广泛使用的预训练和提示调优协议中获得灵感,提出了一种新的视觉提示模型,命名为显式视觉提示(Explicit Visual Prompting, EVP)。与之前的通常为数据集级别的隐式嵌入的视觉提示不同,我们的关键见解是使可调参数专注于每张图像的显式视觉内容,即来自冻结补丁嵌入和高频成分的特征。我们的方法冻结了一个预训练模型,然后使用少量额外参数学习特定任务的知识。尽管只引入了少量可调参数,EVP 在性能上仍优于全微调和其他参数高效的微调方法。在五个任务的十四个数据集上的实验表明,所提出的方法不仅性能优于其他特定任务的方法,而且相当简单。该方法展示了在不同架构、预训练权重和任务中的可扩展性。代码可在以下地址获取:https://github.com/NiFangBaAGe/Explicit-Visual-Prompt。
代码仓库
nifangbaage/explicit-visual-prompt
官方
pytorch
GitHub 中提及
nifangbaage/explict-visual-prompt
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| camouflaged-object-segmentation-on-camo | EVPv2 | MAE: 0.058 S-Measure: 0.848 Weighted F-Measure: 0.786 |
| camouflaged-object-segmentation-on-cod | EVPv2 | MAE: 0.029 S-Measure: 0.843 Weighted F-Measure: 0.746 |
| salient-object-detection-on-dut-omron-2 | EVPv2 | E-measure: 0.895 MAE: 0.047 S-measure: 0.862 max_F1: 0.857 |
| salient-object-detection-on-duts-te-1 | EVPv2 | E-measure: 0.948 MAE: 0.027 Smeasure: 0.915 max_F1: 0.923 |
| salient-object-detection-on-ecssd-1 | EVPv2 | E-measure: 0.957 MAE: 0.028 S-measure: 0.935 max_F1: 0.958 |
| salient-object-detection-on-pascal-s-1 | EVPv2 | E-measure: 0.917 MAE: 0.053 S-measure: 0.879 max_F1: 0.869 |