3 个月前

CAT-Seg:面向开放词汇语义分割的成本聚合

CAT-Seg:面向开放词汇语义分割的成本聚合

摘要

开放词汇语义分割面临的核心挑战在于,需根据广泛多样的文本描述对图像中的每个像素进行标注。本文提出一种新颖的基于代价的范式,用于将视觉-语言基础模型(尤其是CLIP)适配至复杂的语义分割任务。通过聚合图像与文本嵌入之间的余弦相似度得分——即代价体积(cost volume),本方法在微调CLIP编码器的基础上,有效实现了对已见类别与未见类别的分割,解决了现有方法在处理未见类别时所面临的难题。在此基础上,我们进一步探索了如何充分考虑代价体积所具有的多模态特性(其建立于图像与文本嵌入之间)的有效聚合策略。此外,本文还系统研究了多种高效微调CLIP的方法,以提升模型在开放词汇场景下的泛化能力与分割性能。

代码仓库

openrobotlab/ov_parts
jax
GitHub 中提及
KU-CVLAB/CAT-Seg
官方
pytorch
GitHub 中提及
blumenstiel/CAT-Seg-MESS
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CAT-Seg:面向开放词汇语义分割的成本聚合 | 论文 | HyperAI超神经