3 个月前

为何你应该尝试使用真实数据进行场景文本识别

为何你应该尝试使用真实数据进行场景文本识别

摘要

近年来,文本识别领域的研究取得了显著进展,推动了识别性能迈向新的高度。然而,长期以来,由于缺乏大规模人工标注的自然场景文本识别数据集,研究人员不得不依赖合成数据来训练文本识别模型。尽管合成数据集规模庞大(如最为著名的MJSynth和SynthTest数据集,均包含数百万张图像),但其多样性仍难以与真实场景数据集(如ICDAR等)相媲美。值得庆幸的是,近期发布的OpenImages V5数据集中的文本识别标注数据,不仅在样本数量上可与合成数据集比肩,且包含更具多样性的实例。我们采用该标注数据,并结合Yet Another Mask Text Spotter中的文本识别头(Text Recognition head)架构,取得了与当前最优(SOTA)方法相当的性能;在部分数据集上,甚至超越了以往的SOTA模型。本文还提出了一种新的文本识别模型,其代码已公开。

代码仓库

基准测试

基准方法指标
scene-text-recognition-on-icdar-2003Yet Another Text Recognizer
Accuracy: 97.1
scene-text-recognition-on-icdar2013Yet Another Text Recognizer
Accuracy: 96.8
scene-text-recognition-on-icdar2015Yet Another Text Recognizer
Accuracy: 80.2
scene-text-recognition-on-svtYet Another Text Recognizer
Accuracy: 94.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
为何你应该尝试使用真实数据进行场景文本识别 | 论文 | HyperAI超神经