3 个月前

文本到图像扩散模型在视觉感知中的应用

文本到图像扩散模型在视觉感知中的应用

摘要

扩散模型(Diffusion Models, DMs)已成为生成模型的新趋势,并展现出强大的条件生成能力。其中,基于大规模图像-文本对预训练的文本到图像扩散模型可通过自定义提示(prompt)实现高度可控的生成。与仅关注低层属性和细节的无条件生成模型不同,得益于视觉-语言预训练,文本到图像扩散模型蕴含了更丰富的高层语义知识。本文提出一种名为VPD(Visual Perception with a pre-trained Diffusion model)的新框架,旨在将预训练文本到图像扩散模型中的语义信息有效应用于视觉感知任务。不同于传统基于扩散模型的流水线中直接使用预训练的去噪自编码器,我们将其作为骨干网络(backbone),并致力于探索如何充分挖掘其已学习的知识。具体而言,我们通过合理的文本输入引导去噪解码器,并引入适配器(adapter)对文本特征进行优化,从而增强其与预训练阶段的一致性,实现视觉内容与文本提示之间的有效交互。此外,我们提出利用视觉特征与文本特征之间的交叉注意力图(cross-attention maps)提供显式指导,进一步提升模型性能。与现有其他预训练方法相比,实验表明,借助所提出的VPD框架,视觉-语言预训练的扩散模型能够更快速地适配到下游视觉感知任务中。在语义分割、指代图像分割(referring image segmentation)和深度估计等多个任务上的大量实验验证了本方法的有效性。值得注意的是,VPD在NYUv2深度估计任务上取得了0.254的RMSE,于RefCOCO-val指代图像分割任务上达到73.3%的oIoU,均刷新了该两个基准数据集的最新纪录。代码已开源,地址为:https://github.com/wl-zhao/VPD。

代码仓库

基准测试

基准方法指标
monocular-depth-estimation-on-nyu-depth-v2VPD
Delta u003c 1.25: 0.964
Delta u003c 1.25^2: 0.995
Delta u003c 1.25^3: 0.999
RMSE: 0.254
absolute relative error: 0.069
log 10: 0.030
referring-expression-segmentation-on-refcocoVPD
Overall IoU: 73.25

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
文本到图像扩散模型在视觉感知中的应用 | 论文 | HyperAI超神经