3 个月前

SimpleClick:基于简单视觉Transformer的交互式图像分割

SimpleClick:基于简单视觉Transformer的交互式图像分割

摘要

基于点击的交互式图像分割旨在仅通过少量用户点击即可提取目标物体。当前主流方法普遍采用分层主干网络(hierarchical backbone)架构。近年来,结构简单的非分层视觉Transformer(Vision Transformer, ViT)在密集预测任务中展现出强劲竞争力,其设计使得原始ViT可作为基础模型,在无需为预训练重新设计分层主干的情况下,通过微调即可适配下游任务。尽管该设计简洁且已被证明有效,但其在交互式图像分割领域的应用尚未得到充分探索。为填补这一空白,本文提出SimpleClick——首个采用非分层主干网络的交互式分割方法。在该主干基础上,我们引入了一种对称的补丁嵌入层(symmetric patch embedding layer),仅对主干网络进行微小修改,即可将用户点击信息有效编码至网络中。在使用掩码自编码器(Masked Autoencoder, MAE)预训练的非分层主干基础上,SimpleClick实现了当前最优的分割性能。尤为突出的是,该方法在SBD数据集上取得了4.15 NoC@90的指标,相比此前最优结果提升21.8%。在医学图像上的大量实验进一步验证了该方法的强泛化能力。此外,我们还为SimpleClick设计了一种极轻量级的ViT主干网络,并提供了详尽的计算效率分析,充分证明其作为实际图像标注工具的可行性与实用性。

代码仓库

uncbiag/simpleclick
官方
pytorch
GitHub 中提及
yihanhu-2022/diffmatte
pytorch
GitHub 中提及

基准测试

基准方法指标
interactive-segmentation-on-berkeleySimpleClick (ViT-H, C+L)
NoC@90: 1.75
interactive-segmentation-on-berkeleySimpleClick (ViT-H, SBD)
NoC@90: 2.09
interactive-segmentation-on-davisSimpleClick (ViT-H, SBD)
NoC@85: 4.20
NoC@90: 5.34
interactive-segmentation-on-davisSimpleClick (ViT-H, C+L)
NoC@85: 3.41
NoC@90: 4.70
interactive-segmentation-on-grabcutSimpleClick (ViT-L, C+L)
NoC@85: 1.32
NoC@90: 1.40
interactive-segmentation-on-grabcutSimpleClick (ViT-H, SBD)
NoC@85: 1.32
NoC@90: 1.44
interactive-segmentation-on-sbdSimpleClick
NoC@85: 2.51
NoC@90: 4.15

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SimpleClick:基于简单视觉Transformer的交互式图像分割 | 论文 | HyperAI超神经