
摘要
扩散模型是一种生成模型,具有令人印象深刻的文本到图像合成能力,并激发了经典机器学习任务中新一轮的创造性方法。然而,如何最好地利用这些生成模型的感知知识来完成视觉任务仍然是一个开放问题。特别是,在将扩散主干应用于视觉任务时,如何使用提示接口尚不清楚。我们发现,自动生成的标题可以改善文本-图像对齐,并显著增强模型的交叉注意力图,从而提高其感知性能。我们的方法在基于扩散的ADE20K数据集上的语义分割任务中超越了当前的最佳方法(SOTA),并在NYUv2数据集上的深度估计任务中达到了当前的整体最佳水平。此外,我们的方法适用于跨域设置。通过模型个性化和标题修改,我们将模型与目标域对齐,并在未对齐基线基础上取得了改进。我们在Pascal VOC数据集上训练的跨域目标检测模型,在Watercolor2K数据集上达到了最佳结果(SOTA)。我们基于Cityscapes数据集训练的跨域分割方法,在Dark Zurich-val和Nighttime Driving数据集上也达到了最佳结果(SOTA)。项目页面:https://www.vision.caltech.edu/tadp/。代码:https://github.com/damaggu/TADP。
代码仓库
nkondapa/RSVC
pytorch
GitHub 中提及
damaggu/tadp
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-nyu-depth-v2 | TADP | Delta u003c 1.25: 0.976 Delta u003c 1.25^2: 0.997 Delta u003c 1.25^3: 0.999 RMSE: 0.225 absolute relative error: 0.062 log 10: 0.027 |
| semantic-segmentation-on-ade20k | TADP | Validation mIoU: 55.9 |
| semantic-segmentation-on-nighttime-driving | TADP | mIoU: 60.8 |
| semantic-segmentation-on-pascal-voc-2012-val | TADP | mIoU: 87.11% |
| weakly-supervised-object-detection-on-1 | TADP | MAP: 72.2 |
| weakly-supervised-object-detection-on-comic2k | TADP | MAP: 57.4 |