3 个月前

TextDiffuser-2:释放语言模型在文本渲染中的潜力

TextDiffuser-2:释放语言模型在文本渲染中的潜力

摘要

近年来,扩散模型已被证明是一种强大的生成模型,但在生成视觉文本方面仍面临挑战。已有若干方法通过引入显式的文本位置与内容信息作为引导,以指导文本的生成位置与内容。然而,这些方法仍存在诸多局限,例如灵活性与自动化程度不足、版面预测能力受限,以及风格多样性匮乏等问题。本文提出TextDiffuser-2,旨在充分发挥语言模型在文本渲染中的潜力。首先,我们对大型语言模型进行微调,用于版面规划。该语言模型能够自动为文本渲染生成关键词,并支持通过对话方式对版面进行修改。其次,我们在扩散模型中引入语言模型,以行级粒度对文本位置与内容进行编码。与以往依赖紧密字符级引导的方法不同,该方法能够生成更具多样性的文本图像。我们开展了大量实验,并结合了包含人类参与者及GPT-4V的用户研究,验证了TextDiffuser-2在实现更合理文本布局与生成方面的能力,同时显著提升了生成结果的多样性。相关代码与模型将公开于 \url{https://aka.ms/textdiffuser-2}。

基准测试

基准方法指标
image-generation-on-textatlasevalTextDiffuser2
StyledTextSynth Clip Score: 0.2510
StyledTextSynth FID: 114.31
StyledTextSynth OCR (Accuracy): 0.76
StyledTextSynth OCR (Cer): 0.99
StyledTextSynth OCR (F1 Score): 1.46
TextScenesHQ Clip Score: 0.2252
TextScenesHQ FID: 84.10
TextScenesHQ OCR (Accuracy): 0.66
TextScenesHQ OCR (Cer): 0.96
TextScenesHQ OCR (F1 Score): 1.25
TextVisionBlend Clip Score: -
TextVisionBlend FID: -
TextVisionBlend OCR (Accuracy): -
TextVisionBlend OCR (Cer): -
TextVsionBlend OCR (F1 Score): -

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TextDiffuser-2:释放语言模型在文本渲染中的潜力 | 论文 | HyperAI超神经