
摘要
文本到图像的扩散模型如今已具备生成在视觉上与真实图像难以区分的图像的能力。为实现这一目标,这些模型必须理解所要求生成对象的语义信息。在本研究中,我们表明,无需任何训练,即可利用扩散模型内部隐含的语义知识,来建立多张图像之间的语义对应关系——即在不同图像中具有相同语义含义的位置。具体而言,给定一张图像后,我们通过优化模型的提示嵌入(prompt embeddings),使其在感兴趣区域上产生最大注意力。这些经过优化的嵌入能够捕捉到特定位置的语义信息,进而可迁移至另一张图像。通过该方法,我们在PF-Willow数据集上的表现达到与强监督状态下最先进的方法相当的水平,并在CUB-200和SPair-71k数据集上,显著优于现有的任何弱监督或无监督方法(在SPair-71k数据集上相对提升达20.9%)。
代码仓库
ubc-vision/LDM_correspondences
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-correspondence-on-cub-200-2011 | LDM Correspondences | Mean PCK@0.05: 61.6 Mean PCK@0.1: 77.5 |
| semantic-correspondence-on-pf-willow | LDMCorrespondences | PCK: 84.3 |
| semantic-correspondence-on-spair-71k | LDMCorrespondences | PCK: 45.4 |