
摘要
基于深度学习的当前最优场景文本检测方法大致可分为两类。第一类将场景文本视为一类通用目标,沿用通用目标检测范式,通过回归文本框位置来定位文本,但难以应对场景文本任意方向性及大宽高比的问题。第二类方法直接对文本区域进行分割,但通常需要复杂的后处理步骤。本文提出一种融合两类方法思想的新方法,同时规避了它们各自的缺点。我们提出通过定位文本边界框的角点并以相对位置进行文本区域分割的方式来检测场景文本。在推理阶段,候选文本框通过采样和分组角点生成,并由分割图进行打分,再经非极大值抑制(NMS)进行抑制。与以往方法相比,该方法能自然处理长条形方向文本,且无需复杂的后处理。在ICDAR2013、ICDAR2015、MSRA-TD500、MLT以及COCO-Text数据集上的实验表明,所提算法在准确率和效率方面均取得了更优或相当的结果。基于VGG16网络结构,在ICDAR2015上达到84.3%的F-measure,在MSRA-TD500上达到81.5%的F-measure。
代码仓库
lvpengyuan/corner
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-detection-on-icdar-2013 | Corner Localization (multi-scale) | F-Measure: 88% Precision: 92 Recall: 84.4 |
| scene-text-detection-on-icdar-2015 | Corner Localization (multi-scale) | F-Measure: 84.3 Precision: 89.5 Recall: 79.7 |
| scene-text-detection-on-icdar-2017-mlt-1 | Corner Localization (single-scale) | F-Measure: 66.8% Precision: 83.8 Recall: 55.6 |
| scene-text-detection-on-icdar-2017-mlt-1 | Corner Localization (multi-scale) | F-Measure: 72.4% Precision: 74.3 Recall: 70.6 |
| scene-text-detection-on-msra-td500 | Corner Localization | F-Measure: 81.5 Precision: 87.6 Recall: 76.2 |