4 个月前

基于扩散的感知中的文本-图像对齐

基于扩散的感知中的文本-图像对齐

摘要

扩散模型是一种生成模型,具有令人印象深刻的文本到图像合成能力,并激发了经典机器学习任务中新一轮的创造性方法。然而,如何最好地利用这些生成模型的感知知识来完成视觉任务仍然是一个开放问题。特别是,在将扩散主干应用于视觉任务时,如何使用提示接口尚不清楚。我们发现,自动生成的标题可以改善文本-图像对齐,并显著增强模型的交叉注意力图,从而提高其感知性能。我们的方法在基于扩散的ADE20K数据集上的语义分割任务中超越了当前的最佳方法(SOTA),并在NYUv2数据集上的深度估计任务中达到了当前的整体最佳水平。此外,我们的方法适用于跨域设置。通过模型个性化和标题修改,我们将模型与目标域对齐,并在未对齐基线基础上取得了改进。我们在Pascal VOC数据集上训练的跨域目标检测模型,在Watercolor2K数据集上达到了最佳结果(SOTA)。我们基于Cityscapes数据集训练的跨域分割方法,在Dark Zurich-val和Nighttime Driving数据集上也达到了最佳结果(SOTA)。项目页面:https://www.vision.caltech.edu/tadp/。代码:https://github.com/damaggu/TADP。

代码仓库

nkondapa/RSVC
pytorch
GitHub 中提及
damaggu/tadp
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
monocular-depth-estimation-on-nyu-depth-v2TADP
Delta u003c 1.25: 0.976
Delta u003c 1.25^2: 0.997
Delta u003c 1.25^3: 0.999
RMSE: 0.225
absolute relative error: 0.062
log 10: 0.027
semantic-segmentation-on-ade20kTADP
Validation mIoU: 55.9
semantic-segmentation-on-nighttime-drivingTADP
mIoU: 60.8
semantic-segmentation-on-pascal-voc-2012-valTADP
mIoU: 87.11%
weakly-supervised-object-detection-on-1TADP
MAP: 72.2
weakly-supervised-object-detection-on-comic2kTADP
MAP: 57.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于扩散的感知中的文本-图像对齐 | 论文 | HyperAI超神经