3 个月前

文本查询驱动的掩码Transformer用于领域泛化的分割

文本查询驱动的掩码Transformer用于领域泛化的分割

摘要

本文提出一种新方法,用于解决领域泛化语义分割(Domain Generalized Semantic Segmentation, DGSS)问题,该方法通过利用视觉-语言模型文本嵌入中的领域不变语义知识来实现。我们将文本嵌入作为基于Transformer的分割框架中的对象查询(即“文本对象查询”),将其视为DGSS中像素分组的领域不变基础。为充分发挥文本对象查询的潜力,我们提出一种新型框架——文本查询驱动的掩码Transformer(textual query-driven mask transformer, tqdm)。该框架旨在实现两个目标:(1)生成最大程度编码领域不变语义的文本对象查询;(2)提升密集视觉特征的语义清晰度。此外,我们设计了三种正则化损失函数,通过增强视觉特征与文本特征之间的对齐,进一步提升tqdm的性能。借助本方法,模型能够理解目标类别内在的语义信息,从而实现对极端领域(如素描风格)的强泛化能力。在GTA5→Cityscapes基准上,tqdm取得了68.9 mIoU的性能,相较于先前最先进方法提升2.5 mIoU。项目主页详见:https://byeonghyunpak.github.io/tqdm。

代码仓库

ByeongHyunPak/tqdm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
domain-generalization-on-gta-to-avgtqdm (EVA02-CLIP-L)
mIoU: 66.05
domain-generalization-on-gta5-to-cityscapestqdm (EVA02-CLIP-L)
mIoU: 68.88

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
文本查询驱动的掩码Transformer用于领域泛化的分割 | 论文 | HyperAI超神经