
摘要
近年来,基于深度神经网络的模型在场景文本检测和识别领域占据了主导地位。本文研究了场景文本定位问题,旨在同时在自然图像中实现文本检测和识别。提出了一种端到端可训练的神经网络模型用于场景文本定位。该模型命名为Mask TextSpotter,其灵感来源于最近发布的Mask R-CNN工作。与之前通过端到端可训练的深度神经网络实现文本定位的方法不同,Mask TextSpotter利用了一个简单且平滑的端到端学习过程,在此过程中,通过语义分割获得精确的文本检测和识别。此外,该模型在处理不规则形状的文本实例(例如弯曲文本)方面优于先前的方法。在ICDAR2013、ICDAR2015和Total-Text数据集上的实验表明,所提出的方法在这两个任务——场景文本检测和端到端文本识别中均达到了最先进的结果。
代码仓库
lvpengyuan/masktextspotter.caffe2
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-detection-on-icdar-2013 | Mask TextSpotter | F-Measure: 91.7% Precision: 95 Recall: 88.6 |
| scene-text-detection-on-icdar-2015 | Mask TextSpotter | F-Measure: 86 Precision: 91.6 Recall: 81 |
| scene-text-detection-on-total-text | Mask TextSpotter | F-Measure: 61.3% Precision: 69 Recall: 55 |
| text-spotting-on-inverse-text | MaskTextSpotter v2 | F-measure (%) - Full Lexicon: 43.5 F-measure (%) - No Lexicon: 39.0 |