4 个月前

参考图像抠图

参考图像抠图

摘要

不同于传统的图像抠图方法,后者要么需要用户定义的笔划/三值图来提取特定的前景对象,要么直接无差别地提取图像中的所有前景对象,本文引入了一项名为参照图像抠图(Referring Image Matting, RIM)的新任务,旨在根据给定的自然语言描述提取最匹配该描述的特定对象的精细透明度蒙版(alpha matte),从而实现更加自然和简单的图像抠图指令。首先,我们通过设计一个全面的图像合成和表达生成引擎,基于公开数据集自动生产高质量图像及其多样的文本属性,构建了一个大规模且具有挑战性的数据集RefMatte。RefMatte包含230个对象类别、47,500张图像、118,749个表达-区域实体以及474,996条表达。此外,我们还构建了一个包含100张高分辨率自然图像的真实世界测试集,并手动标注了复杂短语,以评估RIM方法在域外的泛化能力。进一步地,我们提出了一种新颖的基线方法CLIPMat用于RIM任务,该方法包括上下文嵌入提示、文本驱动的语义弹出以及多层次细节提取器。在RefMatte数据集上进行的大量实验验证了CLIPMat在关键词和表达设置下的优越性。我们希望这项工作能够为图像抠图领域提供新的见解,并鼓励更多的后续研究。数据集、代码和模型可在https://github.com/JizhiziLi/RIM获取。

代码仓库

jizhizili/rim
官方
GitHub 中提及

基准测试

基准方法指标
referring-image-matting-expression-based-onCLIPMat (ViT-B/16)
MAD: 0.0273
MAD(E): 0.0273
MSE: 0.0245
MSE(E): 0.0260
SAD: 47.97
SAD(E): 50.84
referring-image-matting-expression-based-onCLIPMat (ViT-L/14)
MAD: 0.0238
MAD(E): 0.0254
MSE: 0.0212
MSE(E): 0.0226
SAD: 42.05
SAD(E): 44.77
referring-image-matting-keyword-based-onCLIPMat (ViT-B/16)
MAD: 0.0057
MAD(E): 0.0059
MSE: 0.0028
MSE(E): 0.0029
SAD: 9.91
SAD(E): 10.41
referring-image-matting-keyword-based-onCLIPMat (ViT-L/14)
MAD: 0.0049
MAD(E): 0.0051
MSE: 0.0022
MSE(E): 0.0023
SAD: 8.51
SAD(E): 8.98
referring-image-matting-refmatte-rw100-onCLIPMat (ViT-L/14)
MAD: 0.0510
MAD(E): 0.0505
MSE: 0.0488
MSE(E): 0.0483
SAD: 88.52
SAD(E): 87.92
referring-image-matting-refmatte-rw100-onCLIPMat (ViT-B/16)
MAD: 0.0636
MAD(E): 0.0635
MSE: 0.0614
MSE(E): 0.0612
SAD: 110.66
SAD(E): 110.63

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
参考图像抠图 | 论文 | HyperAI超神经