6 个月前

摘要

扩散模型（Diffusion Models, DMs）已成为生成模型的新趋势，并展现出强大的条件生成能力。其中，基于大规模图像-文本对预训练的文本到图像扩散模型可通过自定义提示（prompt）实现高度可控的生成。与仅关注低层属性和细节的无条件生成模型不同，得益于视觉-语言预训练，文本到图像扩散模型蕴含了更丰富的高层语义知识。本文提出一种名为VPD（Visual Perception with a pre-trained Diffusion model）的新框架，旨在将预训练文本到图像扩散模型中的语义信息有效应用于视觉感知任务。不同于传统基于扩散模型的流水线中直接使用预训练的去噪自编码器，我们将其作为骨干网络（backbone），并致力于探索如何充分挖掘其已学习的知识。具体而言，我们通过合理的文本输入引导去噪解码器，并引入适配器（adapter）对文本特征进行优化，从而增强其与预训练阶段的一致性，实现视觉内容与文本提示之间的有效交互。此外，我们提出利用视觉特征与文本特征之间的交叉注意力图（cross-attention maps）提供显式指导，进一步提升模型性能。与现有其他预训练方法相比，实验表明，借助所提出的VPD框架，视觉-语言预训练的扩散模型能够更快速地适配到下游视觉感知任务中。在语义分割、指代图像分割（referring image segmentation）和深度估计等多个任务上的大量实验验证了本方法的有效性。值得注意的是，VPD在NYUv2深度估计任务上取得了0.254的RMSE，于RefCOCO-val指代图像分割任务上达到73.3%的oIoU，均刷新了该两个基准数据集的最新纪录。代码已开源，地址为：https://github.com/wl-zhao/VPD。

源 PDF