3 个月前

MatteFormer:基于先验Token的Transformer图像抠图

MatteFormer:基于先验Token的Transformer图像抠图

摘要

本文提出了一种基于Transformer的图像抠图模型——MatteFormer,该模型充分利用了Trimap信息在Transformer模块中的作用。我们的方法首先引入了一种先验令牌(prior-token),用以表示每个Trimap区域(如前景、背景和未知区域)的全局特征表示。这些先验令牌作为全局先验信息,参与每一层的自注意力机制。编码器的每一阶段均由PAST(Prior-Attentive Swin Transformer)模块构成,该模块基于Swin Transformer模块,但在以下几个方面有所改进:1)引入了PA-WSA(Prior-Attentive Window Self-Attention)层,该层在执行自注意力时不仅考虑空间令牌(spatial-tokens),还融合了先验令牌;2)设计了先验记忆(prior-memory)机制,能够累积前序模块中的先验令牌,并将其传递至下一模块。我们在常用的图像抠图数据集Composition-1k和Distinctions-646上对MatteFormer进行了评估,实验结果表明,所提出的方法在性能上显著优于现有方法,达到了当前最先进的水平。相关代码已开源,可访问 https://github.com/webtoon/matteformer。

代码仓库

webtoon/matteformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-matting-on-composition-1k-1MatteFormer
Conn: 18.9
Grad: 8.7
MSE: 4.0
SAD: 23.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MatteFormer:基于先验Token的Transformer图像抠图 | 论文 | HyperAI超神经