4 个月前

开放词汇通用图像分割与MaskCLIP

开放词汇通用图像分割与MaskCLIP

摘要

本文研究了一个新兴的计算机视觉任务——开放词汇通用图像分割,该任务旨在在推理阶段对任意类别的基于文本描述进行语义/实例/全景分割(背景语义标注+前景实例分割)。我们首先通过直接采用预训练的CLIP模型而无需微调或蒸馏来构建基线方法。随后,我们开发了MaskCLIP,这是一种基于Transformer的方法,包含一个MaskCLIP视觉编码器,该编码器仅作为编码模块,能够无缝地将掩码标记与预训练的ViT CLIP模型结合,用于语义/实例分割和类别预测。MaskCLIP能够在MaskCLIP视觉编码器中高效且有效地利用预训练的部分/密集CLIP特征,从而避免耗时的学生-教师训练过程。在ADE20K和PASCAL数据集上,MaskCLIP在语义/实例/全景分割方面优于先前的方法。我们展示了在线自定义类别下MaskCLIP的定性示例。项目网站:https://maskclip.github.io。

代码仓库

mlpc-ucsd/maskclip
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
开放词汇通用图像分割与MaskCLIP | 论文 | HyperAI超神经