6 个月前

计算机视觉

Huiwen Chang Han Zhang Jarred Barber AJ Maschinot Jose Lezama Lu Jiang Ming-Hsuan Yang Kevin Murphy William T. Freeman Michael Rubinstein

摘要

我们提出Muse，一种文本到图像的Transformer模型，在实现当前最优图像生成性能的同时，相比扩散模型或自回归模型具有显著更高的效率。Muse在离散标记空间中通过掩码建模任务进行训练：给定从预训练大语言模型（LLM）提取的文本嵌入，Muse被训练以预测随机掩码的图像标记。与基于像素空间的扩散模型（如Imagen和DALL-E 2）相比，由于采用离散标记并减少采样迭代次数，Muse具有更高的效率；与自回归模型（如Parti）相比，Muse通过并行解码机制也展现出更高的效率。借助预训练大语言模型，Muse具备细粒度的语言理解能力，从而实现高保真图像生成，并能准确理解视觉概念，如物体、空间关系、姿态、数量等。我们的9亿参数模型在CC3M数据集上达到新的SOTA（最先进）水平，FID得分为6.06；30亿参数的Muse模型在零样本COCO评估中取得7.88的FID分数，同时获得0.32的CLIP分数。此外，Muse无需微调或模型反演即可直接支持多种图像编辑应用，包括图像修复（inpainting）、图像扩展（outpainting）以及无掩码编辑（mask-free editing）。更多结果请见：https://muse-model.github.io

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Huiwen Chang Han Zhang Jarred Barber AJ Maschinot Jose Lezama Lu Jiang Ming-Hsuan Yang Kevin Murphy William T. Freeman Michael Rubinstein

摘要

我们提出Muse，一种文本到图像的Transformer模型，在实现当前最优图像生成性能的同时，相比扩散模型或自回归模型具有显著更高的效率。Muse在离散标记空间中通过掩码建模任务进行训练：给定从预训练大语言模型（LLM）提取的文本嵌入，Muse被训练以预测随机掩码的图像标记。与基于像素空间的扩散模型（如Imagen和DALL-E 2）相比，由于采用离散标记并减少采样迭代次数，Muse具有更高的效率；与自回归模型（如Parti）相比，Muse通过并行解码机制也展现出更高的效率。借助预训练大语言模型，Muse具备细粒度的语言理解能力，从而实现高保真图像生成，并能准确理解视觉概念，如物体、空间关系、姿态、数量等。我们的9亿参数模型在CC3M数据集上达到新的SOTA（最先进）水平，FID得分为6.06；30亿参数的Muse模型在零样本COCO评估中取得7.88的FID分数，同时获得0.32的CLIP分数。此外，Muse无需微调或模型反演即可直接支持多种图像编辑应用，包括图像修复（inpainting）、图像扩展（outpainting）以及无掩码编辑（mask-free editing）。更多结果请见：https://muse-model.github.io

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供