3 个月前

高质量的通用图像分割

高质量的通用图像分割

摘要

最近推出的通用图像分割模型 Segment Anything Model(SAM)在分割模型的规模化方面取得了重大进展,具备强大的零样本(zero-shot)能力与灵活的提示(prompting)机制。然而,尽管SAM在训练中使用了11亿张掩码(masks),其在处理具有复杂结构的物体时,掩码预测质量仍存在明显不足。为此,我们提出HQ-SAM,该模型在保持SAM原有可提示性设计、高效性及零样本泛化能力的基础上,显著提升了对任意物体的分割精度。HQ-SAM通过精心设计,复用并保留了SAM预训练模型的权重,仅引入极少量额外参数与计算开销。我们设计了一个可学习的高质量输出标记(High-Quality Output Token),将其注入SAM的掩码解码器中,专门负责生成高精度掩码。为提升掩码细节表现,我们不仅将该标记作用于掩码解码器特征,还将其与早期和最终的视觉Transformer(ViT)特征进行融合。为训练所引入的可学习参数,我们构建了一个包含4.4万张细粒度掩码的数据集,数据来源多样。HQ-SAM仅在该4.4万张掩码数据集上进行训练,使用8块GPU仅需4小时即可完成。我们在10个涵盖不同下游任务的多样化分割数据集上验证了HQ-SAM的有效性,其中8个数据集采用零样本迁移评估协议。实验结果表明,HQ-SAM在多个任务中均显著优于原始SAM,展现出卓越的分割精度与泛化能力。相关代码与预训练模型已开源,地址为:https://github.com/SysCV/SAM-HQ。

代码仓库

sqhuang0103/samreg
pytorch
GitHub 中提及
syscv/sam-hq
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-segmentation-on-segmentation-in-theGrounded HQ-SAM
Mean AP: 49.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
高质量的通用图像分割 | 论文 | HyperAI超神经