
摘要
注意力机制因其能够提取字符级别的表征能力,已成为场景文本识别(Scene Text Recognition, STR)方法中的事实标准模块。根据注意力计算方式的不同,现有方法可分为基于隐式注意力(implicit attention)和基于监督注意力(supervised attention)两类:前者从序列级文本标注中学习注意力分布,后者则依赖于字符级边界框标注。然而,隐式注意力可能提取出粗粒度甚至错误的空间区域作为字符注意力,因而容易引发对齐漂移(alignment-drift)问题。虽然监督注意力可缓解该问题,但其具有字符类别特异性,需额外耗费大量人力进行字符级边界框标注,在处理字符类别较多的语言时还会带来显著的内存开销。为解决上述问题,本文提出一种新型注意力机制——自监督隐式字形注意力(Self-supervised Implicit Glyph Attention, SIGA)。SIGA 通过联合进行自监督文本分割与隐式注意力对齐,自动刻画文本图像中的字形结构,从而为注意力机制提供有效的监督信号,显著提升注意力的准确性,且无需额外的字符级标注。实验结果表明,在公开可用的上下文基准以及我们构建的无上下文基准上,SIGA 在注意力准确性与最终识别性能方面均显著优于以往基于注意力的STR方法,且表现稳定可靠。
代码仓库
tongkunguan/siga
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-recognition-on-cute80 | SIGA_T | Accuracy: 93.1 |
| scene-text-recognition-on-icdar-2003 | SIGA_T | Accuracy: 97.0 |
| scene-text-recognition-on-icdar2013 | SIGA_T | Accuracy: 97.8 |
| scene-text-recognition-on-icdar2015 | SIGA_S | Accuracy: 87.6 |
| scene-text-recognition-on-iiit5k | SIGA_S | Accuracy: 96.9 |
| scene-text-recognition-on-svt | SIGA_T | Accuracy: 95.1 |
| scene-text-recognition-on-svtp | SIGA_T | Accuracy: 90.5 |