ZhangJunyi ; HerrmannCharles ; HurJunhwa ; CabreraLuisa Polania ; JampaniVarun ; SunDeqing ; YangMing-Hsuan

摘要
文本到图像扩散模型在生成和编辑高质量图像方面取得了显著进展。因此,许多方法探索了扩散模型特征在理解和处理单个图像以完成下游任务(如分类、语义分割和风格化)的能力。然而,关于这些特征在多个不同图像和对象之间揭示的信息,人们了解得还远远不够。在这项工作中,我们利用 Stable Diffusion (SD) 特征进行语义和密集对应,并发现通过简单的后处理,SD 特征可以定量地与最先进的表示方法相媲美。有趣的是,定性分析显示 SD 特征与现有的表示学习特征(例如最近发布的 DINOv2)具有非常不同的属性:虽然 DINOv2 提供稀疏但准确的匹配,SD 特征则提供高质量的空间信息,但有时语义匹配不够准确。我们展示了这两种特征的简单融合效果出奇地好,并且使用这些融合特征进行零样本评估时,基于最近邻的方法在基准数据集(如 SPair-71k、PF-Pascal 和 TSS)上的性能显著优于现有最先进方法。此外,我们还证明了这些对应关系可以支持一些有趣的 应用,例如两幅图像中的实例交换。
代码仓库
Junyi42/sd-dino
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dense-pixel-correspondence-estimation-on-tss | SD+DINO (Zero-shot) | Average PCK@0.05: 79.7 |
| semantic-correspondence-on-pf-pascal | SD+DINO (Supervised) | PCK: 93.6 |
| semantic-correspondence-on-spair-71k | SD+DINO (Supervised) | PCK: 74.6 |
| semantic-correspondence-on-spair-71k | SD+DINO (Zero-shot) | PCK: 64.0 |