Hanqing ZhaoDianmo ShengJianmin BaoDongdong ChenDong ChenFang WenLu YuanCe LiuWenbo ZhouQi ChuWeiming ZhangNenghai Yu

摘要
复制粘贴(Copy-Paste)是一种简单而有效的实例分割数据增强策略。通过将物体实例随机粘贴到新的背景图像上,该方法可免费生成大量新的训练数据,显著提升分割性能,尤其在稀有物体类别上效果更为突出。尽管使用多样且高质量的物体实例能带来更大的性能增益,但以往研究中的物体实例主要来源于人工标注的实例分割数据集或由3D物体模型渲染生成,这两种方式均难以大规模扩展以实现充分的多样性。本文中,我们借助新兴的零样本识别模型(如CLIP)和文本生成图像模型(如Stable Diffusion)的强大能力,重新在大规模场景下探索Copy-Paste策略的可行性。我们首次证明,利用文本生成图像模型生成目标类别图像,或通过零样本识别模型对噪声爬取图像进行筛选,是一种切实可行的实现Copy-Paste真正可扩展性的方法。为实现这一目标,我们设计了一套数据采集与处理框架,命名为“X-Paste”,并在此基础上开展了系统性研究。在LVIS数据集上,X-Paste在以Swin-L为骨干网络的强基线模型CenterNet2基础上取得了显著提升:在所有类别上分别实现了+2.6的框AP(box AP)和+2.1的掩码AP(mask AP)的增益;在长尾类别上更是取得了+6.8的框AP和+6.5的掩码AP的显著提升。相关代码与模型已开源,地址为:https://github.com/yoctta/XPaste。
代码仓库
yoctta/xpaste
官方
pytorch
GitHub 中提及
aim-uofa/DiverGen
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| instance-segmentation-on-coco-minival | CenterNet2 (Swin-L w/ X-Paste + Copy-Paste) | mask AP: 48.8 |
| instance-segmentation-on-lvis-v1-0-val | CenterNet2 (Swin-L w/ X-Paste + Copy-Paste) | mask AP: 45.4 mask APr: 43.8 |
| object-detection-on-lvis-v1-0-val | CenterNet2 (Swin-L w/ X-Paste + Copy-Paste) | box AP: 50.9 box APr: 48.7 |
| open-vocabulary-object-detection-on-lvis-v1-0 | X-Paste | AP novel-LVIS base training: 21.4 AP novel-Unrestricted open-vocabulary training: 22.8 |