6 个月前

计算机视觉

计算机视觉

GyuTae Park SungJoon Son JaeYoung Yoo SeHo Kim Nojun Kwak

摘要

本文提出了一种基于Transformer的图像抠图模型——MatteFormer，该模型充分利用了Trimap信息在Transformer模块中的作用。我们的方法首先引入了一种先验令牌（prior-token），用以表示每个Trimap区域（如前景、背景和未知区域）的全局特征表示。这些先验令牌作为全局先验信息，参与每一层的自注意力机制。编码器的每一阶段均由PAST（Prior-Attentive Swin Transformer）模块构成，该模块基于Swin Transformer模块，但在以下几个方面有所改进：1）引入了PA-WSA（Prior-Attentive Window Self-Attention）层，该层在执行自注意力时不仅考虑空间令牌（spatial-tokens），还融合了先验令牌；2）设计了先验记忆（prior-memory）机制，能够累积前序模块中的先验令牌，并将其传递至下一模块。我们在常用的图像抠图数据集Composition-1k和Distinctions-646上对MatteFormer进行了评估，实验结果表明，所提出的方法在性能上显著优于现有方法，达到了当前最先进的水平。相关代码已开源，可访问 https://github.com/webtoon/matteformer。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

GyuTae Park SungJoon Son JaeYoung Yoo SeHo Kim Nojun Kwak

摘要

本文提出了一种基于Transformer的图像抠图模型——MatteFormer，该模型充分利用了Trimap信息在Transformer模块中的作用。我们的方法首先引入了一种先验令牌（prior-token），用以表示每个Trimap区域（如前景、背景和未知区域）的全局特征表示。这些先验令牌作为全局先验信息，参与每一层的自注意力机制。编码器的每一阶段均由PAST（Prior-Attentive Swin Transformer）模块构成，该模块基于Swin Transformer模块，但在以下几个方面有所改进：1）引入了PA-WSA（Prior-Attentive Window Self-Attention）层，该层在执行自注意力时不仅考虑空间令牌（spatial-tokens），还融合了先验令牌；2）设计了先验记忆（prior-memory）机制，能够累积前序模块中的先验令牌，并将其传递至下一模块。我们在常用的图像抠图数据集Composition-1k和Distinctions-646上对MatteFormer进行了评估，实验结果表明，所提出的方法在性能上显著优于现有方法，达到了当前最先进的水平。相关代码已开源，可访问 https://github.com/webtoon/matteformer。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供