3 个月前

自监督隐式字形注意力用于文本识别

自监督隐式字形注意力用于文本识别

摘要

注意力机制因其能够提取字符级别的表征能力,已成为场景文本识别(Scene Text Recognition, STR)方法中的事实标准模块。根据注意力计算方式的不同,现有方法可分为基于隐式注意力(implicit attention)和基于监督注意力(supervised attention)两类:前者从序列级文本标注中学习注意力分布,后者则依赖于字符级边界框标注。然而,隐式注意力可能提取出粗粒度甚至错误的空间区域作为字符注意力,因而容易引发对齐漂移(alignment-drift)问题。虽然监督注意力可缓解该问题,但其具有字符类别特异性,需额外耗费大量人力进行字符级边界框标注,在处理字符类别较多的语言时还会带来显著的内存开销。为解决上述问题,本文提出一种新型注意力机制——自监督隐式字形注意力(Self-supervised Implicit Glyph Attention, SIGA)。SIGA 通过联合进行自监督文本分割与隐式注意力对齐,自动刻画文本图像中的字形结构,从而为注意力机制提供有效的监督信号,显著提升注意力的准确性,且无需额外的字符级标注。实验结果表明,在公开可用的上下文基准以及我们构建的无上下文基准上,SIGA 在注意力准确性与最终识别性能方面均显著优于以往基于注意力的STR方法,且表现稳定可靠。

代码仓库

tongkunguan/siga
官方
pytorch

基准测试

基准方法指标
scene-text-recognition-on-cute80SIGA_T
Accuracy: 93.1
scene-text-recognition-on-icdar-2003SIGA_T
Accuracy: 97.0
scene-text-recognition-on-icdar2013SIGA_T
Accuracy: 97.8
scene-text-recognition-on-icdar2015SIGA_S
Accuracy: 87.6
scene-text-recognition-on-iiit5kSIGA_S
Accuracy: 96.9
scene-text-recognition-on-svtSIGA_T
Accuracy: 95.1
scene-text-recognition-on-svtpSIGA_T
Accuracy: 90.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自监督隐式字形注意力用于文本识别 | 论文 | HyperAI超神经