HyperAIHyperAI

Command Palette

Search for a command to run...

OCR的缩放定律实证研究

Miao Rang Zhenni Bi Chuanjian Liu Yunhe Wang Kai Han

摘要

在自然语言处理(Natural Language Processing, NLP)领域,模型规模、数据量、计算资源与模型性能之间的缩放规律已得到广泛研究。然而,光学字符识别(Optical Character Recognition, OCR)领域的缩放规律尚未被系统探究。为弥补这一空白,我们开展了全面的研究,深入分析了文本识别任务中性能与模型规模、数据量及计算资源之间的关联性。研究结果表明,在其他影响因素保持不变的前提下,性能与模型规模、训练数据量之间均呈现出平滑的幂律关系。此外,我们构建了一个大规模数据集,命名为REBU-Syn,包含600万张真实样本和1800万张合成样本。基于所发现的缩放规律以及该新数据集,我们成功训练出一种场景文本识别模型,在6个常用测试基准上取得了新的最先进性能,平均Top-1准确率达到97.42%。相关模型与数据集已公开发布,访问地址为:https://github.com/large-ocr-model/large-ocr-model.github.io


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供