3 个月前

扩散模型在自然图像抠图中的应用

扩散模型在自然图像抠图中的应用

摘要

我们旨在利用扩散模型(diffusion)来解决图像抠图(image matting)这一极具挑战性的任务。然而,高计算开销以及训练与推理过程中噪声采样不一致的问题,严重制约了该目标的实现。本文提出了一种名为 DiffMatte 的新方法,旨在有效克服上述挑战。首先,DiffMatte 将解码器从原本高度耦合的抠图网络结构中解耦出来,仅在扩散过程的迭代中引入一个轻量级解码器。该策略有效抑制了随着采样数量增加而带来的计算开销增长。其次,我们采用了一种基于均匀时间间隔的自对齐训练策略,确保在整个时间域内训练与推理阶段的噪声采样保持一致。DiffMatte 设计具有高度灵活性,可无缝集成至多种现代抠图架构中。大量实验结果表明,DiffMatte 在 Composition-1k 测试集上达到了当前最优水平,相较于以往最佳方法,在 SAD 指标上提升 5%,在 MSE 指标上提升 15%;同时在其他多个基准测试中也展现出更强的泛化能力。

代码仓库

yihanhu-2022/diffmatte
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-matting-on-aim-500DiffMatte
Conn.: 15.98
Grad.: 15.68
MAD: 0.0098
MSE: 0.0033
SAD: 16.31
image-matting-on-composition-1k-1DiffMatte
Conn: 11.42
Grad: 5.13
MSE: 2.26
SAD: 17.15
image-matting-on-distinctions-646DiffMatte
Conn: 13.29
Grad: 7.20
MSE: 0.0015
SAD: 15.50
Trimap:

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
扩散模型在自然图像抠图中的应用 | 论文 | HyperAI超神经