
摘要
扩散模型框架在图像生成任务中已达到与以往最先进模型相当的性能。由于其强大的从噪声到图像的去噪能力,研究者们对其在判别性任务中的各类变体产生了浓厚兴趣。本文提出了一种名为 DiffusionInst 的新框架,该框架将实例表示为具有实例感知能力的滤波器,并将实例分割建模为从噪声到滤波器的去噪过程。该模型在训练阶段无需依赖区域提议网络(RPN)的归纳偏置,即可学习逆转带有噪声的真实标签。在推理阶段,模型以随机生成的滤波器作为输入,通过单步或多步去噪过程直接输出分割掩码。在 COCO 和 LVIS 数据集上的大量实验结果表明,DiffusionInst 在采用多种骨干网络(如 ResNet 和 Swin Transformer)的情况下,均展现出与现有实例分割模型相当甚至更优的性能。我们期望本工作能作为一个强有力的基线,激发更多高效扩散框架的设计,以应对具有挑战性的判别性任务。代码已开源,详见:https://github.com/chenhaoxing/DiffusionInst。
代码仓库
alipay/diffusion-model-for-instance-segmentation
pytorch
GitHub 中提及
chenhaoxing/DiffusionInst
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| instance-segmentation-on-coco | DiffusionInst-ResNet101 | mask AP: 41.5 |
| instance-segmentation-on-coco | DiffusionInst-ResNet50 | mask AP: 37.1 |
| instance-segmentation-on-coco | DiffusionInst-SwinB | mask AP: 47.6 |
| instance-segmentation-on-coco | DiffusionInst-SwinL | mask AP: 48.3 |
| instance-segmentation-on-lvis-v1-0-val | DiffusionInst-ResNet50 | mask AP: 22.3 |
| instance-segmentation-on-lvis-v1-0-val | DiffusionInst-SwinB | mask AP: 36 |
| instance-segmentation-on-lvis-v1-0-val | DiffusionInst-SwinL | mask AP: 38.6 |
| instance-segmentation-on-lvis-v1-0-val | DiffusionInst-ResNet101 | mask AP: 27 |