4 个月前

面向开放词汇的协作视觉-文本表示优化

面向开放词汇的协作视觉-文本表示优化

摘要

预训练的视觉-语言模型(如CLIP)已被越来越多地用于解决具有挑战性的开放词汇分割(OVS)任务,得益于其对齐良好的视觉-文本嵌入空间。典型的解决方案包括在训练过程中冻结CLIP以单方面保持其零样本能力,或者微调CLIP的视觉编码器以实现对局部区域的感知敏感性。然而,很少有方法涉及视觉-文本协同优化。基于此,我们提出了一种内容依赖传输方法,通过与输入图像进行交互来自适应地增强每个文本嵌入,从而提供了一种参数高效的文本表示优化方式。此外,我们还引入了一种表示补偿策略,将原始的CLIP-V表示作为补偿以维持CLIP的零样本能力。通过这种方式,CLIP的视觉和文本表示得到了协同优化,增强了视觉-文本特征空间的对齐性。据我们所知,这是首次在OVS领域内建立视觉-文本协同优化机制。广泛的实验表明,我们的方法在流行的OVS基准测试中表现出色。在开放词汇语义分割任务中,我们的方法分别在A-847、A-150、PC-459、PC-59和PAS-20数据集上超越了先前的最佳方法,mIoU指标分别提高了+0.5、+2.3、+3.4、+0.4和+1.1。此外,在ADE20K数据集的全景设置下,我们实现了27.1 PQ、73.5 SQ和32.9 RQ的性能。代码将在https://github.com/jiaosiyu1999/MAFT-Plus.git 提供。

代码仓库

jiaosiyu1999/MAFT-Plus
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向开放词汇的协作视觉-文本表示优化 | 论文 | HyperAI超神经