3 个月前

OCR的缩放定律实证研究

OCR的缩放定律实证研究

摘要

在自然语言处理(Natural Language Processing, NLP)领域,模型规模、数据量、计算资源与模型性能之间的缩放规律已得到广泛研究。然而,光学字符识别(Optical Character Recognition, OCR)领域的缩放规律尚未被系统探究。为弥补这一空白,我们开展了全面的研究,深入分析了文本识别任务中性能与模型规模、数据量及计算资源之间的关联性。研究结果表明,在其他影响因素保持不变的前提下,性能与模型规模、训练数据量之间均呈现出平滑的幂律关系。此外,我们构建了一个大规模数据集,命名为REBU-Syn,包含600万张真实样本和1800万张合成样本。基于所发现的缩放规律以及该新数据集,我们成功训练出一种场景文本识别模型,在6个常用测试基准上取得了新的最先进性能,平均Top-1准确率达到97.42%。相关模型与数据集已公开发布,访问地址为:https://github.com/large-ocr-model/large-ocr-model.github.io。

代码仓库

基准测试

基准方法指标
scene-text-recognition-on-cute80CLIP4STR-B*
Accuracy: 99.65
scene-text-recognition-on-icdar2013CLIP4STR-L*
Accuracy: 99.42
scene-text-recognition-on-icdar2015CLIP4STR-L*
Accuracy: 92.6
scene-text-recognition-on-svtCLIP4STR-B*
Accuracy: 98.76
scene-text-recognition-on-svtpCLIP4STR-L*
Accuracy: 98.13

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OCR的缩放定律实证研究 | 论文 | HyperAI超神经