
摘要
近年来,扩散模型已被证明是一种强大的生成模型,但在生成视觉文本方面仍面临挑战。已有若干方法通过引入显式的文本位置与内容信息作为引导,以指导文本的生成位置与内容。然而,这些方法仍存在诸多局限,例如灵活性与自动化程度不足、版面预测能力受限,以及风格多样性匮乏等问题。本文提出TextDiffuser-2,旨在充分发挥语言模型在文本渲染中的潜力。首先,我们对大型语言模型进行微调,用于版面规划。该语言模型能够自动为文本渲染生成关键词,并支持通过对话方式对版面进行修改。其次,我们在扩散模型中引入语言模型,以行级粒度对文本位置与内容进行编码。与以往依赖紧密字符级引导的方法不同,该方法能够生成更具多样性的文本图像。我们开展了大量实验,并结合了包含人类参与者及GPT-4V的用户研究,验证了TextDiffuser-2在实现更合理文本布局与生成方面的能力,同时显著提升了生成结果的多样性。相关代码与模型将公开于 \url{https://aka.ms/textdiffuser-2}。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-textatlaseval | TextDiffuser2 | StyledTextSynth Clip Score: 0.2510 StyledTextSynth FID: 114.31 StyledTextSynth OCR (Accuracy): 0.76 StyledTextSynth OCR (Cer): 0.99 StyledTextSynth OCR (F1 Score): 1.46 TextScenesHQ Clip Score: 0.2252 TextScenesHQ FID: 84.10 TextScenesHQ OCR (Accuracy): 0.66 TextScenesHQ OCR (Cer): 0.96 TextScenesHQ OCR (F1 Score): 1.25 TextVisionBlend Clip Score: - TextVisionBlend FID: - TextVisionBlend OCR (Accuracy): - TextVisionBlend OCR (Cer): - TextVsionBlend OCR (F1 Score): - |