3 个月前

Muse:通过掩码生成式Transformer实现文本到图像生成

Muse:通过掩码生成式Transformer实现文本到图像生成

摘要

我们提出Muse,一种文本到图像的Transformer模型,在实现当前最优图像生成性能的同时,相比扩散模型或自回归模型具有显著更高的效率。Muse在离散标记空间中通过掩码建模任务进行训练:给定从预训练大语言模型(LLM)提取的文本嵌入,Muse被训练以预测随机掩码的图像标记。与基于像素空间的扩散模型(如Imagen和DALL-E 2)相比,由于采用离散标记并减少采样迭代次数,Muse具有更高的效率;与自回归模型(如Parti)相比,Muse通过并行解码机制也展现出更高的效率。借助预训练大语言模型,Muse具备细粒度的语言理解能力,从而实现高保真图像生成,并能准确理解视觉概念,如物体、空间关系、姿态、数量等。我们的9亿参数模型在CC3M数据集上达到新的SOTA(最先进)水平,FID得分为6.06;30亿参数的Muse模型在零样本COCO评估中取得7.88的FID分数,同时获得0.32的CLIP分数。此外,Muse无需微调或模型反演即可直接支持多种图像编辑应用,包括图像修复(inpainting)、图像扩展(outpainting)以及无掩码编辑(mask-free editing)。更多结果请见:https://muse-model.github.io

代码仓库

baaivision/muse-pytorch
pytorch
GitHub 中提及
huggingface/open-muse
jax
GitHub 中提及
huggingface/amused
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-image-generation-on-ms-cocoMuse-3B (zero-shot)
FID: 7.88

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Muse:通过掩码生成式Transformer实现文本到图像生成 | 论文 | HyperAI超神经