
摘要
不同于传统的图像抠图方法,后者要么需要用户定义的笔划/三值图来提取特定的前景对象,要么直接无差别地提取图像中的所有前景对象,本文引入了一项名为参照图像抠图(Referring Image Matting, RIM)的新任务,旨在根据给定的自然语言描述提取最匹配该描述的特定对象的精细透明度蒙版(alpha matte),从而实现更加自然和简单的图像抠图指令。首先,我们通过设计一个全面的图像合成和表达生成引擎,基于公开数据集自动生产高质量图像及其多样的文本属性,构建了一个大规模且具有挑战性的数据集RefMatte。RefMatte包含230个对象类别、47,500张图像、118,749个表达-区域实体以及474,996条表达。此外,我们还构建了一个包含100张高分辨率自然图像的真实世界测试集,并手动标注了复杂短语,以评估RIM方法在域外的泛化能力。进一步地,我们提出了一种新颖的基线方法CLIPMat用于RIM任务,该方法包括上下文嵌入提示、文本驱动的语义弹出以及多层次细节提取器。在RefMatte数据集上进行的大量实验验证了CLIPMat在关键词和表达设置下的优越性。我们希望这项工作能够为图像抠图领域提供新的见解,并鼓励更多的后续研究。数据集、代码和模型可在https://github.com/JizhiziLi/RIM获取。
代码仓库
jizhizili/rim
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-image-matting-expression-based-on | CLIPMat (ViT-B/16) | MAD: 0.0273 MAD(E): 0.0273 MSE: 0.0245 MSE(E): 0.0260 SAD: 47.97 SAD(E): 50.84 |
| referring-image-matting-expression-based-on | CLIPMat (ViT-L/14) | MAD: 0.0238 MAD(E): 0.0254 MSE: 0.0212 MSE(E): 0.0226 SAD: 42.05 SAD(E): 44.77 |
| referring-image-matting-keyword-based-on | CLIPMat (ViT-B/16) | MAD: 0.0057 MAD(E): 0.0059 MSE: 0.0028 MSE(E): 0.0029 SAD: 9.91 SAD(E): 10.41 |
| referring-image-matting-keyword-based-on | CLIPMat (ViT-L/14) | MAD: 0.0049 MAD(E): 0.0051 MSE: 0.0022 MSE(E): 0.0023 SAD: 8.51 SAD(E): 8.98 |
| referring-image-matting-refmatte-rw100-on | CLIPMat (ViT-L/14) | MAD: 0.0510 MAD(E): 0.0505 MSE: 0.0488 MSE(E): 0.0483 SAD: 88.52 SAD(E): 87.92 |
| referring-image-matting-refmatte-rw100-on | CLIPMat (ViT-B/16) | MAD: 0.0636 MAD(E): 0.0635 MSE: 0.0614 MSE(E): 0.0612 SAD: 110.66 SAD(E): 110.63 |