3 个月前

AnyText:多语言视觉文本生成与编辑

AnyText:多语言视觉文本生成与编辑

摘要

基于扩散模型的文本到图像生成技术近年来取得了令人瞩目的进展。尽管当前图像合成技术已高度先进,能够生成高保真度的图像,但在关注生成图像中的文本区域时,仍容易暴露出问题。为解决这一挑战,我们提出AnyText——一种基于扩散模型的多语言视觉文本生成与编辑模型,专注于在图像中实现准确且连贯的文本渲染。AnyText采用包含两个核心组件的扩散流水线:辅助隐空间模块与文本嵌入模块。前者利用文本字形、位置信息及掩码图像作为输入,生成用于文本生成或编辑的隐空间特征;后者则通过OCR模型将笔画数据编码为嵌入向量,与分词器生成的图像标题嵌入向量融合,从而生成与背景无缝融合的文本内容。在训练过程中,我们引入了文本控制扩散损失(text-control diffusion loss)与文本感知损失(text perceptual loss),进一步提升了文本生成的准确性。据我们所知,AnyText是首个实现多语言视觉文本生成的系统,能够生成多种语言的字符。值得注意的是,AnyText可无缝集成至社区现有的扩散模型中,实现精准的文本渲染与编辑。经过大量评估实验验证,我们的方法在各项指标上均显著优于现有所有方法。此外,我们构建了首个大规模多语言图文数据集AnyWord-3M,包含300万张图像-文本对,并涵盖多种语言的OCR标注信息。基于该数据集,我们进一步提出了AnyText-benchmark,用于系统评估视觉文本生成的准确性与质量。本项目将开源至https://github.com/tyxsspa/AnyText,旨在推动文本生成技术的持续发展与进步。

代码仓库

tyxsspa/anytext
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-generation-on-textatlasevalAnytext
StyledTextSynth Clip Score: 0.2501
StyledTextSynth FID: 117.71
StyledTextSynth OCR (Accuracy): 0.35
StyledTextSynth OCR (Cer): 0.98
StyledTextSynth OCR (F1 Score): 0.66
TextScenesHQ Clip Score: 0.2174
TextScenesHQ FID: 101.32
TextScenesHQ OCR (Accuracy): 0.42
TextScenesHQ OCR (Cer): 0.95
TextScenesHQ OCR (F1 Score): 0.8
TextVisionBlend Clip Score: -
TextVisionBlend FID: -
TextVisionBlend OCR (Accuracy): -
TextVisionBlend OCR (Cer): -
TextVsionBlend OCR (F1 Score): -

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AnyText:多语言视觉文本生成与编辑 | 论文 | HyperAI超神经