3 个月前

利用元提示词驾驭扩散模型实现视觉感知

利用元提示词驾驭扩散模型实现视觉感知

摘要

视觉模型的生成式预训练问题长期以来一直是一个悬而未决的难题。目前,文本到图像(Text-to-Image, T2I)扩散模型在生成与文本输入高度匹配的高分辨率图像方面展现出卓越能力,这一成就得益于其在大规模图像-文本对上的预训练。由此自然引出一个关键问题:扩散模型是否可用于解决视觉感知任务?本文提出了一种简洁而高效的方法,旨在利用预训练的扩散模型完成各类视觉感知任务。我们的核心思想是向预训练扩散模型中引入可学习的嵌入向量(即“元提示”,meta prompts),以提取适用于感知任务的有效特征。元提示的作用具有双重性:其一,作为T2I模型中原始文本嵌入的直接替代,可在特征提取阶段激活与任务相关的关键特征;其二,通过重新排列所提取的特征,引导模型聚焦于当前任务最相关的特征表示。此外,我们设计了一种循环精炼训练策略,充分挖掘扩散模型的内在特性,从而生成更具判别力的视觉特征。在多个基准数据集上的大量实验验证了所提方法的有效性。我们的方法在NYU Depth V2和KITTI数据集上的深度估计任务中取得了新的性能纪录,在CityScapes数据集上的语义分割任务中也实现了显著提升。同时,在ADE20K数据集的语义分割任务和COCO数据集的姿势估计任务上,所提方法的表现与当前最先进水平相当,进一步证明了其强大的泛化能力与广泛适用性。

代码仓库

fudan-zvg/meta-prompts
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
monocular-depth-estimation-on-kitti-eigenMetaPrompt-SD
Delta u003c 1.25: 0.981
Delta u003c 1.25^2: 0.998
Delta u003c 1.25^3: 1.000
RMSE: 1.928
RMSE log: 0.071
Sq Rel: 0.125
absolute relative error: 0.047
monocular-depth-estimation-on-nyu-depth-v2MetaPrompt-SD
Delta u003c 1.25: 0.976
Delta u003c 1.25^2: 0.997
Delta u003c 1.25^3: 0.999
RMSE: 0.223
absolute relative error: 0.061
log 10: 0.027
pose-estimation-on-cocoMetaPrompt-SD
AP: 79.0
semantic-segmentation-on-ade20kMetaPrompt-SD
Validation mIoU: 56.8
semantic-segmentation-on-cityscapesMetaPrompt-SD
Mean IoU (class): 86.2
semantic-segmentation-on-cityscapes-valMetaPrompt-SD
mIoU: 87.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用元提示词驾驭扩散模型实现视觉感知 | 论文 | HyperAI超神经