4 个月前

基于文本和图像提示的图像分割

基于文本和图像提示的图像分割

摘要

图像分割通常通过训练模型来解决固定对象类别的问题。后期增加新的类别或更复杂的查询代价高昂,因为需要在包含这些表达的数据集上重新训练模型。本文提出了一种系统,该系统能够在测试时根据任意提示生成图像分割。提示可以是文本或图像。这种方法使我们能够创建一个统一的模型(仅需一次训练),以应对三种常见的分割任务,这些任务各自带有不同的挑战:指代表达分割、零样本分割和单样本分割。我们基于CLIP模型作为主干,并扩展了一个基于Transformer的解码器,以实现密集预测。在扩展版PhraseCut数据集上训练后,我们的系统可以根据自由文本提示或附加的表示查询的图像生成二值分割图。我们详细分析了后者基于图像的提示的不同变体。这种新颖的混合输入不仅允许动态适应上述三种分割任务,还适用于任何可以通过文本或图像查询表述的二值分割任务。最后,我们发现该系统对涉及功能或属性的泛化查询也具有良好的适应性。代码可在 https://eckerlab.org/code/clipseg 获取。

基准测试

基准方法指标
referring-image-matting-expression-based-onCLIPSeg (ViT-B/16)
MAD: 0.0394
MAD(E): 0.0419
MSE: 0.0358
MSE(E): 0.0381
SAD: 69.13
SAD(E): 73.53
referring-image-matting-keyword-based-onCLIPSeg (ViT-B/16)
MAD: 0.0101
MAD(E): 0.0106
MSE: 0.0064
MSE(E): 0.0067
SAD: 17.75
SAD(E): 18.69
referring-image-matting-refmatte-rw100-onCLIPSeg (ViT-B/16)
MAD: 0.1222
MAD(E): 0.1282
MSE: 0.1178
MSE(E): 0.1236
SAD: 211.86
SAD(E): 222.37

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于文本和图像提示的图像分割 | 论文 | HyperAI超神经