3 个月前

语言驱动的语义分割

语言驱动的语义分割

摘要

我们提出LSeg,一种面向语言驱动的语义图像分割的新模型。LSeg采用文本编码器对描述性输入标签(如“草地”或“建筑物”)进行编码,同时结合基于Transformer的图像编码器,生成输入图像的密集像素级嵌入表示。图像编码器通过对比学习目标进行训练,使每个像素的嵌入与对应语义类别文本嵌入对齐。文本嵌入提供了一种灵活的标签表示方式,语义相近的标签在嵌入空间中映射至相近区域(例如,“猫”与“毛茸茸”)。这一特性使LSeg能够在测试阶段泛化至未见过的类别,无需重新训练,甚至无需任何额外的训练样本。实验表明,我们的方法在零样本语义分割任务中表现优异,性能与现有的零样本及少样本分割方法相比具有竞争力,且在给定固定标签集合时,其准确率可媲美传统分割算法。代码与演示项目已开源,详见:https://github.com/isl-org/lang-seg。

代码仓库

isl-org/lang-seg
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
few-shot-semantic-segmentation-on-fss-1000LSeg
Mean IoU: 87.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语言驱动的语义分割 | 论文 | HyperAI超神经