
摘要
语义分割是计算机视觉中的核心任务之一。现有方法通常可分为两类:自动式与交互式。以“通用分割模型”(Segment Anything Model, SAM)为代表的交互式方法作为预训练模型展现了巨大潜力。然而,当前针对此类模型的适应策略往往偏向于完全自动或完全交互的范式。交互式方法依赖用户提供的提示(prompt)进行操作,而自动式方法则完全绕过交互式提示机制。为克服上述局限,本文提出一种全新的范式及其首个模型——自动与交互式通用分割模型(Automatic and Interactive Segment Anything Model, AI-SAM)。在该范式中,我们对提示质量进行了全面分析,并首次提出“自动与交互式提示生成器”(AI-Prompter),该组件能够自动生成初始点提示,同时支持用户后续补充输入以进一步优化结果。实验结果表明,AI-SAM在自动设置下表现出色,达到了当前最优性能;更重要的是,其具备灵活融入额外用户提示的能力,从而进一步提升分割效果。项目主页详见:https://github.com/ymp5078/AI-SAM。
代码仓库
ymp5078/ai-sam
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| medical-image-segmentation-on-automatic | Interactive AI-SAM gt box | Avg DSC: 93.89 |
| medical-image-segmentation-on-automatic | Automatic AI-SAM | Avg DSC: 92.06 |
| medical-image-segmentation-on-synapse-multi | Interactive AI-SAM gt box | Avg DSC: 90.66 |
| medical-image-segmentation-on-synapse-multi | Automatic AI-SAM | Avg DSC: 84.21 |