4 个月前

MaskGIT:掩码生成图像变换器

MaskGIT:掩码生成图像变换器

摘要

生成式变压器在计算机视觉领域中用于合成高保真和高分辨率图像,近年来受到了广泛关注。然而,目前最好的生成式变压器模型仍然将图像简单地视为一系列令牌,并按照光栅扫描顺序(即逐行)解码图像。我们发现这种策略既非最优也非高效。本文提出了一种使用双向变压器解码器的新图像合成范式,我们称之为MaskGIT。在训练过程中,MaskGIT通过关注所有方向上的令牌来学习预测随机遮蔽的令牌。在推理阶段,该模型首先同时生成图像的所有令牌,然后基于前一次生成的结果迭代地优化图像。实验结果表明,MaskGIT在ImageNet数据集上显著优于当前最先进的变压器模型,并且可以将自回归解码速度提升至最高64倍。此外,我们还展示了MaskGIT可以轻松扩展到各种图像编辑任务,如修复、外推和图像操作。

代码仓库

HKUNLP/Dream
pytorch
GitHub 中提及
valeoai/maskgit-pytorch
pytorch
GitHub 中提及
LAION-AI/phenaki
pytorch
GitHub 中提及
lucidrains/soundstorm-pytorch
pytorch
GitHub 中提及
alibaba/graph-gpt
pytorch
GitHub 中提及
lucidrains/phenaki-pytorch
pytorch
GitHub 中提及
myscience/open-genie
pytorch
GitHub 中提及
dome272/MaskGIT-pytorch
pytorch
GitHub 中提及
google-research/maskgit
官方
jax
GitHub 中提及

基准测试

基准方法指标
image-generation-on-imagenet-256x256MaskGIT
FID: 6.18
image-generation-on-imagenet-256x256MaskGIT (a=0.05)
FID: 4.02
image-generation-on-imagenet-512x512MaskGIT (a=0.05)
FID: 4.46
Inception score: 342.0
image-generation-on-imagenet-512x512MaskGIT
FID: 7.32
Inception score: 156.0
image-outpainting-on-lhqcMaskGIT
Block-FID (Right Extend): 14.68
Block-FID (Down Extend): 25.57
Block-FID (Left Extend): 14.81
Block-FID (Up Extend): 25.38
image-reconstruction-on-imagenetMaskGIT-VQGAN (16x16)
FID: 2.28
text-to-image-generation-on-lhqcMaskGIT
Block-FID: 24.33

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MaskGIT:掩码生成图像变换器 | 论文 | HyperAI超神经