
摘要
场景文本定位(Scene-text spotting)是一项同时预测自然场景图像中文本区域并识别其字符的任务,近年来因其广泛的应用前景而受到广泛关注。现有研究主要聚焦于提升文本区域检测的性能,而对文本识别的关注相对不足。因此,尽管检测精度有所提高,端到端的整体识别准确率仍不理想。自然场景图像中的文本通常并非随机字符组合,而是具有语义意义的词组。为此,本文提出一种面向场景文本定位的语义表示对抗学习方法(Adversarial Learning of Semantic Representations for Scene Text Spotting, A3S),旨在提升端到端的识别准确率,包括文本识别能力。A3S在检测到的文本区域内同时预测语义特征,而非仅依赖现有的视觉特征进行文本识别。在多个公开数据集上的实验结果表明,所提出的方法在准确率方面优于现有其他方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-spotting-on-icdar-2015 | A3S | F-measure (%) - Generic Lexicon: 79.6 F-measure (%) - Strong Lexicon: 84.8 F-measure (%) - Weak Lexicon: 83.7 |
| text-spotting-on-scut-ctw1500 | A3S | F-Measure (%) - Full Lexicon: 82.3 F-measure (%) - No Lexicon: 64.4 |
| text-spotting-on-total-text | A3S | F-measure (%) - Full Lexicon: 85.1 F-measure (%) - No Lexicon: 79.4 |