HyperAI

摘要

在自然语言处理（Natural Language Processing, NLP）领域，模型规模、数据量、计算资源与模型性能之间的缩放规律已得到广泛研究。然而，光学字符识别（Optical Character Recognition, OCR）领域的缩放规律尚未被系统探究。为弥补这一空白，我们开展了全面的研究，深入分析了文本识别任务中性能与模型规模、数据量及计算资源之间的关联性。研究结果表明，在其他影响因素保持不变的前提下，性能与模型规模、训练数据量之间均呈现出平滑的幂律关系。此外，我们构建了一个大规模数据集，命名为REBU-Syn，包含600万张真实样本和1800万张合成样本。基于所发现的缩放规律以及该新数据集，我们成功训练出一种场景文本识别模型，在6个常用测试基准上取得了新的最先进性能，平均Top-1准确率达到97.42%。相关模型与数据集已公开发布，访问地址为：https://github.com/large-ocr-model/large-ocr-model.github.io。

摘要

Miao Rang Zhenni Bi Chuanjian Liu Yunhe Wang Kai Han

摘要

用 AI 构建 AI

HyperAI Newsletters

Miao Rang Zhenni Bi Chuanjian Liu Yunhe Wang Kai Han

摘要

用 AI 构建 AI

HyperAI Newsletters

Miao Rang Zhenni Bi Chuanjian Liu Yunhe Wang Kai Han

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OCR的缩放定律实证研究

Miao Rang Zhenni Bi Chuanjian Liu Yunhe Wang Kai Han

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OCR的缩放定律实证研究

Miao Rang Zhenni Bi Chuanjian Liu Yunhe Wang Kai Han

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OCR的缩放定律实证研究

Miao Rang Zhenni Bi Chuanjian Liu Yunhe Wang Kai Han

摘要

用 AI 构建 AI

HyperAI Newsletters