6 个月前

Jingye Chen Yupan Huang Tengchao Lv Lei Cui Qifeng Chen Furu Wei

摘要

近年来，扩散模型已被证明是一种强大的生成模型，但在生成视觉文本方面仍面临挑战。已有若干方法通过引入显式的文本位置与内容信息作为引导，以指导文本的生成位置与内容。然而，这些方法仍存在诸多局限，例如灵活性与自动化程度不足、版面预测能力受限，以及风格多样性匮乏等问题。本文提出TextDiffuser-2，旨在充分发挥语言模型在文本渲染中的潜力。首先，我们对大型语言模型进行微调，用于版面规划。该语言模型能够自动为文本渲染生成关键词，并支持通过对话方式对版面进行修改。其次，我们在扩散模型中引入语言模型，以行级粒度对文本位置与内容进行编码。与以往依赖紧密字符级引导的方法不同，该方法能够生成更具多样性的文本图像。我们开展了大量实验，并结合了包含人类参与者及GPT-4V的用户研究，验证了TextDiffuser-2在实现更合理文本布局与生成方面的能力，同时显著提升了生成结果的多样性。相关代码与模型将公开于 \url{https://aka.ms/textdiffuser-2}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Jingye Chen Yupan Huang Tengchao Lv Lei Cui Qifeng Chen Furu Wei

摘要

近年来，扩散模型已被证明是一种强大的生成模型，但在生成视觉文本方面仍面临挑战。已有若干方法通过引入显式的文本位置与内容信息作为引导，以指导文本的生成位置与内容。然而，这些方法仍存在诸多局限，例如灵活性与自动化程度不足、版面预测能力受限，以及风格多样性匮乏等问题。本文提出TextDiffuser-2，旨在充分发挥语言模型在文本渲染中的潜力。首先，我们对大型语言模型进行微调，用于版面规划。该语言模型能够自动为文本渲染生成关键词，并支持通过对话方式对版面进行修改。其次，我们在扩散模型中引入语言模型，以行级粒度对文本位置与内容进行编码。与以往依赖紧密字符级引导的方法不同，该方法能够生成更具多样性的文本图像。我们开展了大量实验，并结合了包含人类参与者及GPT-4V的用户研究，验证了TextDiffuser-2在实现更合理文本布局与生成方面的能力，同时显著提升了生成结果的多样性。相关代码与模型将公开于 \url{https://aka.ms/textdiffuser-2}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供