
摘要
以往的场景文本检测方法通常依赖于手动定义的滑动窗口。本文提出了一种直观的两阶段区域基方法,能够在无需任何关于文本形状先验知识的情况下检测多方向文本。在第一阶段,我们通过检测和连接角点而不是移动一组默认锚框来估计文本实例的可能位置。四边形提议具有几何适应性,这使得我们的方法能够应对各种文本纵横比和方向。在第二阶段,我们设计了一种新的池化层——双RoI池化(Dual-RoI Pooling),该池化层在区域子网络中嵌入了数据增强技术,从而对这些提议进行更稳健的分类和回归。公共基准测试的实验结果证实,所提出的方法能够达到与现有最先进方法相当的性能。代码已公开发布于 https://github.com/xhzdeng/crpn
代码仓库
xhzdeng/crpn
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-detection-on-coco-text | Corner-based Region Proposals | F-Measure: 59.1 Precision: 55.5 Recall: 63.3 |
| scene-text-detection-on-icdar-2013 | Corner-based Region Proposals | F-Measure: 87.6%% Precision: 91.9 Recall: 83.9 |
| scene-text-detection-on-icdar-2015 | Corner-based Region Proposals | F-Measure: 84.5 Precision: 88.7 Recall: 80.7 |