4 个月前

基于图像嵌入平衡的开放词汇语义分割

基于图像嵌入平衡的开放词汇语义分割

摘要

开放词汇语义分割是一项具有挑战性的任务,要求模型输出图像的语义掩码,而不仅仅是封闭词汇集内的类别。尽管已经有许多研究尝试利用强大的CLIP模型来完成这一任务,但由于训练类和新类之间存在自然的语义信息差距,这些方法仍然容易对训练类产生过拟合。为了解决这一挑战,我们提出了一种名为EBSeg的新框架,该框架结合了自适应平衡解码器(AdaB解码器)和语义结构一致性损失(SSC损失)。AdaB解码器旨在为训练类和新类生成不同的图像嵌入。随后,这两种类型的嵌入通过自适应平衡机制进行融合,以充分利用它们在识别训练类方面的能力和对新类的泛化能力。为了从CLIP中学习一致的语义结构,SSC损失将图像特征空间中的类别间亲和力与CLIP文本特征空间中的亲和力对齐,从而提高模型的泛化能力。此外,我们使用了一个冻结的SAM图像编码器来补充CLIP特征由于低分辨率训练图像和图像级监督所缺乏的空间信息。我们在多个基准数据集上进行了广泛的实验,结果表明所提出的EBSeg优于现有的最先进方法。我们的代码和预训练模型可在以下链接获取:https://github.com/slonetime/EBSeg。

代码仓库

slonetime/ebseg
官方
pytorch

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于图像嵌入平衡的开放词汇语义分割 | 论文 | HyperAI超神经