HyperAI超神经

摘要

我们提出LSeg，一种面向语言驱动的语义图像分割的新模型。LSeg采用文本编码器对描述性输入标签（如“草地”或“建筑物”）进行编码，同时结合基于Transformer的图像编码器，生成输入图像的密集像素级嵌入表示。图像编码器通过对比学习目标进行训练，使每个像素的嵌入与对应语义类别文本嵌入对齐。文本嵌入提供了一种灵活的标签表示方式，语义相近的标签在嵌入空间中映射至相近区域（例如，“猫”与“毛茸茸”）。这一特性使LSeg能够在测试阶段泛化至未见过的类别，无需重新训练，甚至无需任何额外的训练样本。实验表明，我们的方法在零样本语义分割任务中表现优异，性能与现有的零样本及少样本分割方法相比具有竞争力，且在给定固定标签集合时，其准确率可媲美传统分割算法。代码与演示项目已开源，详见：https://github.com/isl-org/lang-seg。

摘要

Boyi Li Kilian Q. Weinberger Serge Belongie Vladlen Koltun René Ranftl

摘要

用 AI 构建 AI

HyperAI Newsletters

Boyi Li Kilian Q. Weinberger Serge Belongie Vladlen Koltun René Ranftl

摘要

用 AI 构建 AI

HyperAI Newsletters

Boyi Li Kilian Q. Weinberger Serge Belongie Vladlen Koltun René Ranftl

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

语言驱动的语义分割

Boyi Li Kilian Q. Weinberger Serge Belongie Vladlen Koltun René Ranftl

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

语言驱动的语义分割

Boyi Li Kilian Q. Weinberger Serge Belongie Vladlen Koltun René Ranftl

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

语言驱动的语义分割

Boyi Li Kilian Q. Weinberger Serge Belongie Vladlen Koltun René Ranftl

摘要

用 AI 构建 AI

HyperAI Newsletters