4 个月前

卷积不死:使用单一冻结卷积CLIP进行开放词汇分割

卷积不死:使用单一冻结卷积CLIP进行开放词汇分割

摘要

开放词汇分割是一项具有挑战性的任务,需要从一个开放的类别集合中对对象进行分割和识别。解决这一挑战的一种方法是利用多模态模型(如CLIP)在共享嵌入空间中提供图像和文本特征,从而弥合封闭词汇与开放词汇识别之间的差距。因此,现有的方法通常采用两阶段框架来处理该问题,首先输入数据通过掩码生成器,然后与预测的掩码一起通过CLIP模型。这一过程涉及多次从图像中提取特征,这不仅效率低下而且效果不佳。相比之下,我们提出了一种单阶段框架,使用共享的冻结卷积CLIP主干网络,这不仅显著简化了当前的两阶段流程,还显著提高了准确性和成本之间的权衡。所提出的FC-CLIP受益于以下观察结果:冻结的CLIP主干网络保留了开放词汇分类的能力,并且可以作为强大的掩码生成器;卷积CLIP对大于对比图像-文本预训练期间使用的输入分辨率具有良好的泛化能力。仅在COCO全景数据上进行训练并在零样本条件下测试时,FC-CLIP在ADE20K上的表现分别为26.8 PQ、16.8 AP和34.1 mIoU,在Mapillary Vistas上的表现为18.2 PQ和27.9 mIoU,在Cityscapes上的表现为44.0 PQ、26.8 AP和56.2 mIoU,分别优于先前技术+4.2 PQ、+2.4 AP、+4.2 mIoU(在ADE20K上)、+4.0 PQ(在Mapillary Vistas上)和+20.1 PQ(在Cityscapes上)。此外,FC-CLIP的训练和测试时间比相同先前技术快7.5倍和6.6倍,并且参数量减少了5.9倍。FC-CLIP还在各种开放词汇语义分割数据集上实现了新的最先进性能。代码地址:https://github.com/bytedance/fc-clip

代码仓库

bytedance/fc-clip
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
卷积不死:使用单一冻结卷积CLIP进行开放词汇分割 | 论文 | HyperAI超神经