HyperAIHyperAI

Command Palette

Search for a command to run...

卷积不死:使用单一冻结卷积CLIP进行开放词汇分割

Qihang Yu Ju He Xueqing Deng Xiaohui Shen Liang-Chieh Chen

摘要

开放词汇分割是一项具有挑战性的任务,需要从一个开放的类别集合中对对象进行分割和识别。解决这一挑战的一种方法是利用多模态模型(如CLIP)在共享嵌入空间中提供图像和文本特征,从而弥合封闭词汇与开放词汇识别之间的差距。因此,现有的方法通常采用两阶段框架来处理该问题,首先输入数据通过掩码生成器,然后与预测的掩码一起通过CLIP模型。这一过程涉及多次从图像中提取特征,这不仅效率低下而且效果不佳。相比之下,我们提出了一种单阶段框架,使用共享的冻结卷积CLIP主干网络,这不仅显著简化了当前的两阶段流程,还显著提高了准确性和成本之间的权衡。所提出的FC-CLIP受益于以下观察结果:冻结的CLIP主干网络保留了开放词汇分类的能力,并且可以作为强大的掩码生成器;卷积CLIP对大于对比图像-文本预训练期间使用的输入分辨率具有良好的泛化能力。仅在COCO全景数据上进行训练并在零样本条件下测试时,FC-CLIP在ADE20K上的表现分别为26.8 PQ、16.8 AP和34.1 mIoU,在Mapillary Vistas上的表现为18.2 PQ和27.9 mIoU,在Cityscapes上的表现为44.0 PQ、26.8 AP和56.2 mIoU,分别优于先前技术+4.2 PQ、+2.4 AP、+4.2 mIoU(在ADE20K上)、+4.0 PQ(在Mapillary Vistas上)和+20.1 PQ(在Cityscapes上)。此外,FC-CLIP的训练和测试时间比相同先前技术快7.5倍和6.6倍,并且参数量减少了5.9倍。FC-CLIP还在各种开放词汇语义分割数据集上实现了新的最先进性能。代码地址:https://github.com/bytedance/fc-clip


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
卷积不死:使用单一冻结卷积CLIP进行开放词汇分割 | 论文 | HyperAI超神经