Huiwen ChangHan ZhangJarred BarberAJ MaschinotJose LezamaLu JiangMing-Hsuan YangKevin MurphyWilliam T. FreemanMichael RubinsteinYuanzhen LiDilip Krishnan

摘要
我们提出Muse,一种文本到图像的Transformer模型,在实现当前最优图像生成性能的同时,相比扩散模型或自回归模型具有显著更高的效率。Muse在离散标记空间中通过掩码建模任务进行训练:给定从预训练大语言模型(LLM)提取的文本嵌入,Muse被训练以预测随机掩码的图像标记。与基于像素空间的扩散模型(如Imagen和DALL-E 2)相比,由于采用离散标记并减少采样迭代次数,Muse具有更高的效率;与自回归模型(如Parti)相比,Muse通过并行解码机制也展现出更高的效率。借助预训练大语言模型,Muse具备细粒度的语言理解能力,从而实现高保真图像生成,并能准确理解视觉概念,如物体、空间关系、姿态、数量等。我们的9亿参数模型在CC3M数据集上达到新的SOTA(最先进)水平,FID得分为6.06;30亿参数的Muse模型在零样本COCO评估中取得7.88的FID分数,同时获得0.32的CLIP分数。此外,Muse无需微调或模型反演即可直接支持多种图像编辑应用,包括图像修复(inpainting)、图像扩展(outpainting)以及无掩码编辑(mask-free editing)。更多结果请见:https://muse-model.github.io
代码仓库
baaivision/muse-pytorch
pytorch
GitHub 中提及
lucidrains/muse-pytorch
pytorch
huggingface/open-muse
jax
GitHub 中提及
Qiyuan-Ge/PaintMind
pytorch
huggingface/amused
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-image-generation-on-ms-coco | Muse-3B (zero-shot) | FID: 7.88 |