3 个月前

X-Paste:基于CLIP与StableDiffusion的实例分割可扩展复制粘贴方法再研究

X-Paste:基于CLIP与StableDiffusion的实例分割可扩展复制粘贴方法再研究

摘要

复制粘贴(Copy-Paste)是一种简单而有效的实例分割数据增强策略。通过将物体实例随机粘贴到新的背景图像上,该方法可免费生成大量新的训练数据,显著提升分割性能,尤其在稀有物体类别上效果更为突出。尽管使用多样且高质量的物体实例能带来更大的性能增益,但以往研究中的物体实例主要来源于人工标注的实例分割数据集或由3D物体模型渲染生成,这两种方式均难以大规模扩展以实现充分的多样性。本文中,我们借助新兴的零样本识别模型(如CLIP)和文本生成图像模型(如Stable Diffusion)的强大能力,重新在大规模场景下探索Copy-Paste策略的可行性。我们首次证明,利用文本生成图像模型生成目标类别图像,或通过零样本识别模型对噪声爬取图像进行筛选,是一种切实可行的实现Copy-Paste真正可扩展性的方法。为实现这一目标,我们设计了一套数据采集与处理框架,命名为“X-Paste”,并在此基础上开展了系统性研究。在LVIS数据集上,X-Paste在以Swin-L为骨干网络的强基线模型CenterNet2基础上取得了显著提升:在所有类别上分别实现了+2.6的框AP(box AP)和+2.1的掩码AP(mask AP)的增益;在长尾类别上更是取得了+6.8的框AP和+6.5的掩码AP的显著提升。相关代码与模型已开源,地址为:https://github.com/yoctta/XPaste。

代码仓库

yoctta/xpaste
官方
pytorch
GitHub 中提及
aim-uofa/DiverGen
pytorch
GitHub 中提及

基准测试

基准方法指标
instance-segmentation-on-coco-minivalCenterNet2 (Swin-L w/ X-Paste + Copy-Paste)
mask AP: 48.8
instance-segmentation-on-lvis-v1-0-valCenterNet2 (Swin-L w/ X-Paste + Copy-Paste)
mask AP: 45.4
mask APr: 43.8
object-detection-on-lvis-v1-0-valCenterNet2 (Swin-L w/ X-Paste + Copy-Paste)
box AP: 50.9
box APr: 48.7
open-vocabulary-object-detection-on-lvis-v1-0X-Paste
AP novel-LVIS base training: 21.4
AP novel-Unrestricted open-vocabulary training: 22.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
X-Paste:基于CLIP与StableDiffusion的实例分割可扩展复制粘贴方法再研究 | 论文 | HyperAI超神经