
摘要
近年来,文本识别领域的研究取得了显著进展,推动了识别性能迈向新的高度。然而,长期以来,由于缺乏大规模人工标注的自然场景文本识别数据集,研究人员不得不依赖合成数据来训练文本识别模型。尽管合成数据集规模庞大(如最为著名的MJSynth和SynthTest数据集,均包含数百万张图像),但其多样性仍难以与真实场景数据集(如ICDAR等)相媲美。值得庆幸的是,近期发布的OpenImages V5数据集中的文本识别标注数据,不仅在样本数量上可与合成数据集比肩,且包含更具多样性的实例。我们采用该标注数据,并结合Yet Another Mask Text Spotter中的文本识别头(Text Recognition head)架构,取得了与当前最优(SOTA)方法相当的性能;在部分数据集上,甚至超越了以往的SOTA模型。本文还提出了一种新的文本识别模型,其代码已公开。
代码仓库
openvinotoolkit/training_extensions
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-recognition-on-icdar-2003 | Yet Another Text Recognizer | Accuracy: 97.1 |
| scene-text-recognition-on-icdar2013 | Yet Another Text Recognizer | Accuracy: 96.8 |
| scene-text-recognition-on-icdar2015 | Yet Another Text Recognizer | Accuracy: 80.2 |
| scene-text-recognition-on-svt | Yet Another Text Recognizer | Accuracy: 94.7 |