
摘要
形状鲁棒文本检测面临的挑战主要体现在两个方面:1)现有的基于四边形边界框的检测器难以准确定位任意形状的文本,这些文本很难被完美地包含在一个矩形内;2)大多数基于像素级分割的检测器可能无法分离彼此非常接近的文本实例。为了解决这些问题,我们提出了一种新颖的渐进尺度扩展网络(Progressive Scale Expansion Network, PSENet),该网络设计为一种基于分割的检测器,对每个文本实例进行多次预测。这些预测对应于通过将原始文本实例缩小到不同尺度而生成的各种“核”(kernels)。因此,最终的检测可以通过我们的渐进尺度扩展算法来实现,该算法逐步将最小尺度的核扩展到具有最大且完整形状的文本实例。由于这些最小核之间存在较大的几何裕度,我们的方法能够有效地区分相邻的文本实例,并且对任意形状具有鲁棒性。在ICDAR 2015和ICDAR 2017 MLT基准测试中的最新结果进一步证实了PSENet的有效性。特别是在曲线文本数据集SCUT-CTW1500上,PSENet的表现绝对优于之前的最佳记录6.37%。代码将在https://github.com/whai362/PSENet提供。
代码仓库
DePengW/PSENet
tf
GitHub 中提及
A-ZHANG1/PSENet
tf
GitHub 中提及
li10141110/PSENet-tf2
tf
GitHub 中提及
SimonWang00/psenet.tf2
tf
GitHub 中提及
whai362/PSENet
官方
tf
GitHub 中提及
JiaquanYe/TableMASTER-mmocr
pytorch
GitHub 中提及
Mael-zys/PSENet
pytorch
GitHub 中提及
liuheng92/tensorflow_PSENet
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-detection-on-icdar-2015 | PSENet-1s | F-Measure: 87.1 Precision: 88.7 Recall: 85.5 |
| scene-text-detection-on-icdar-2017-mlt-1 | PSENet-1s | F-Measure: 72.45% Precision: 77.01 Recall: 68.4 |
| scene-text-detection-on-scut-ctw1500 | PSENet-1s | F-Measure: 81.17 Precision: 82.5 Recall: 79.89 |