3 个月前

DiffusionSTR:用于场景文本识别的扩散模型

DiffusionSTR:用于场景文本识别的扩散模型

摘要

本文提出了一种基于扩散模型的场景文本识别框架——DiffusionSTR(Diffusion Model for Scene Text Recognition),该框架采用端到端的方式,利用扩散模型实现对自然场景中文本的识别。与现有研究将场景文本识别任务视为图像到文本的转换不同,本文首次将该任务重新定义为在扩散模型框架下以图像为条件的文本到文本的生成过程。实验结果首次证明了扩散模型可有效应用于文本识别任务。在多个公开数据集上的实验表明,所提出的方法在识别准确率方面达到了与当前最优方法相媲美的水平。

基准测试

基准方法指标
scene-text-recognition-on-cute80DiffusionSTR
Accuracy: 92.5
scene-text-recognition-on-icdar2013DiffusionSTR
Accuracy: 97.1
scene-text-recognition-on-icdar2015DiffusionSTR
Accuracy: 86
scene-text-recognition-on-iiit5kDiffusionSTR
Accuracy: 97.3
scene-text-recognition-on-svtDiffusionSTR
Accuracy: 93.6
scene-text-recognition-on-svtpDiffusionSTR
Accuracy: 89.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DiffusionSTR:用于场景文本识别的扩散模型 | 论文 | HyperAI超神经