
摘要
近年来,由于在众多实际应用中具有重要意义,场景文本识别引起了学术界和实际用户的广泛关注。尽管光学字符识别(OCR)技术取得了显著进展,但场景文本识别仍面临诸多挑战,主要源于文本固有的扭曲变形和不规则排布等问题。现有的大多数方法主要依赖于循环神经网络(RNN)或基于卷积神经网络(CNN)的架构。然而,RNN由于依赖序列计算,通常存在训练速度慢的问题,并容易受到梯度消失或信息瓶颈的影响;而CNN则在模型复杂度与识别性能之间面临权衡。针对上述局限,本文提出一种基于自注意力机制的神经网络模型——SAFL(Self-Attention-based Focal Loss model),并引入焦点损失(focal loss)以提升模型在场景文本识别任务中的表现。相较于传统的负对数似然损失,焦点损失能够使模型更加关注低频样本的训练,从而改善整体识别效果。此外,为应对文本的形变与不规则布局问题,本文引入空间变换网络(Spatial Transformer Network, STN)对输入文本进行几何校正,再送入后续识别网络。通过与七种基准方法的对比实验,结果表明,所提出的SAFL模型在多个公开数据集上均取得了最优的识别性能,验证了其有效性与优越性。
代码仓库
ICMLA-SAFL/SAFL_pytorch
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-recognition-on-icdar-2003 | SAFL | Accuracy: 95.0 |
| scene-text-recognition-on-icdar2013 | SAFL | Accuracy: 92.8 |
| scene-text-recognition-on-icdar2015 | SAFL | Accuracy: 77.5 |
| scene-text-recognition-on-svt | SAFL | Accuracy: 88.6 |