
摘要
识别自然图像中的文本是一项具有许多未解决难题的挑战性任务。与文档中的文字不同,自然图像中的文字通常具有不规则形状,这些形状是由透视畸变、字符弯曲排列等因素造成的。我们提出了RARE(Robust text recognizer with Automatic REctification,具备自动校正功能的鲁棒文本识别器),这是一种对不规则文本具有鲁棒性的识别模型。RARE是一种专门设计的深度神经网络,由空间变换网络(Spatial Transformer Network, STN)和序列识别网络(Sequence Recognition Network, SRN)组成。在测试过程中,首先通过预测的薄板样条(Thin-Plate-Spline, TPS)变换对图像进行校正,使其成为更适合后续SRN处理的“可读”图像,SRN则通过序列识别方法来识别文本。我们展示了该模型能够识别多种类型的不规则文本,包括透视文本和弯曲文本。RARE支持端到端训练,仅需图像及其对应的文本标签即可完成训练,这使得在实际系统中训练和部署该模型变得非常方便。在多个基准数据集上取得的最先进或极具竞争力的表现充分证明了所提出模型的有效性。
代码仓库
iwyoo/tf_thinplatespline
tf
GitHub 中提及
WarBean/tps_stn_pytorch
pytorch
GitHub 中提及
mindspore-lab/mindocr
mindspore
PaddlePaddle/PaddleOCR
paddle
GitHub 中提及
Media-Smart/vedastr
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-recognition-on-icdar-2003 | RARE | Accuracy: 90.1 |
| scene-text-recognition-on-icdar2013 | RARE | Accuracy: 88.6 |
| scene-text-recognition-on-svt | RARE | Accuracy: 81.9 |