
摘要
偶然场景文本检测被认为是文档分析领域中最困难且最有价值的挑战之一。现有的大多数方法将文本检测和识别视为两个独立的任务。在本研究中,我们提出了一种统一的端到端可训练的快速定向文本检测(Fast Oriented Text Spotting, FOTS)网络,用于同时进行检测和识别,该网络在这两个互补任务之间共享计算和视觉信息。特别地,引入了RoIRotate以在检测和识别之间共享卷积特征。得益于卷积共享策略,我们的FOTS相比基线文本检测网络几乎没有额外的计算开销,而联合训练方法则学习到了更为通用的特征,使得我们的方法在这类两阶段方法中表现更优。在ICDAR 2015、ICDAR 2017 MLT和ICDAR 2013数据集上的实验表明,所提出的方法显著优于现有最先进方法,并进一步使我们能够开发出首个实时定向文本检测系统,在ICDAR 2015文本检测任务上比所有先前的最先进结果高出超过5%,同时保持了22.6帧每秒的速度。
代码仓库
Pay20Y/FOTS_TF
tf
GitHub 中提及
Masao-Taketani/FOTS_OCR
tf
GitHub 中提及
ArashJavan/FOTS
tf
GitHub 中提及
xieyufei1993/FOTS
pytorch
jiangxiluning/FOTS.PyTorch
pytorch
GitHub 中提及
Kaushal28/FOTS-PyTorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-detection-on-icdar-2015 | FOTS | F-Measure: 87.99 Precision: 91 Recall: 85.17 |
| scene-text-detection-on-icdar-2015 | FOTS MS | F-Measure: 89.84 Precision: 91.85 Recall: 87.92 |
| scene-text-detection-on-icdar-2017-mlt-1 | FOTS MS | F-Measure: 70.75% Precision: 81.86 Recall: 62.3 |
| scene-text-detection-on-icdar-2017-mlt-1 | FOTS | F-Measure: 67.25% Precision: 80.95 Recall: 57.51 |
| text-spotting-on-icdar-2015 | FOTS | F-measure (%) - Generic Lexicon: 62.2 F-measure (%) - Strong Lexicon: 83.6 F-measure (%) - Weak Lexicon: 74.5 |