
摘要
本文提出了一种基于Transformer的图像抠图模型——MatteFormer,该模型充分利用了Trimap信息在Transformer模块中的作用。我们的方法首先引入了一种先验令牌(prior-token),用以表示每个Trimap区域(如前景、背景和未知区域)的全局特征表示。这些先验令牌作为全局先验信息,参与每一层的自注意力机制。编码器的每一阶段均由PAST(Prior-Attentive Swin Transformer)模块构成,该模块基于Swin Transformer模块,但在以下几个方面有所改进:1)引入了PA-WSA(Prior-Attentive Window Self-Attention)层,该层在执行自注意力时不仅考虑空间令牌(spatial-tokens),还融合了先验令牌;2)设计了先验记忆(prior-memory)机制,能够累积前序模块中的先验令牌,并将其传递至下一模块。我们在常用的图像抠图数据集Composition-1k和Distinctions-646上对MatteFormer进行了评估,实验结果表明,所提出的方法在性能上显著优于现有方法,达到了当前最先进的水平。相关代码已开源,可访问 https://github.com/webtoon/matteformer。
代码仓库
webtoon/matteformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-matting-on-composition-1k-1 | MatteFormer | Conn: 18.9 Grad: 8.7 MSE: 4.0 SAD: 23.8 |