6 个月前

摘要

近年来，受深度学习与海量数据的推动，场景文本识别技术取得了迅猛发展。早期，基于RNN-注意力机制的方法在该领域占据主导地位，但在某些情况下存在显著的注意力漂移（attention drift）问题。近年来，基于语义分割的算法在识别不同形态文本（如水平、倾斜及弯曲文本）方面展现出良好效果。然而，这类方法高度依赖对分割图进行阈值处理，容易产生误检字符或遗漏真实字符，存在一定的局限性。为应对上述挑战，本文提出一种新型方法——TextScanner，用于场景文本识别。TextScanner具有以下三个核心特性：（1）本质上属于语义分割范畴，能够生成像素级、多通道的分割图，分别对应字符类别、位置及顺序信息；（2）同时，与基于RNN-注意力的方法类似，TextScanner引入RNN进行上下文建模，以增强序列理解能力；（3）此外，该方法并行预测字符的位置与类别，并通过结构设计确保字符按正确顺序输出。在标准基准数据集上的实验结果表明，TextScanner在性能上超越了当前最先进的方法。尤其在识别更具挑战性的文本（如中文文本）以及实现字符与目标内容的精准对齐方面，TextScanner展现出显著优势。

源 PDF