
摘要
场景文字检测近年来取得了快速进展,尤其是在卷积神经网络的发展推动下。然而,仍有两个挑战阻碍了算法在工业应用中的推广。一方面,大多数最先进的算法需要使用四边形边界框来定位任意形状的文字,这种方法不够精确。另一方面,当两个文本实例距离较近时,可能会导致错误检测,将这两个实例合并在一起。传统上,基于分割的方法可以缓解第一个问题,但在解决第二个挑战方面通常表现不佳。为了解决这两个挑战,本文提出了一种新颖的渐进尺度扩展网络(Progressive Scale Expansion Network, PSENet),该网络能够精确检测任意形状的文本实例。具体而言,PSENet为每个文本实例生成不同尺度的内核,并逐步将最小尺度的内核扩展到具有完整形状的文本实例。由于最小尺度内核之间存在较大的几何间隔,我们的方法能够有效地分离靠近的文本实例,从而使得基于分割的方法更容易用于检测任意形状的文本实例。在CTW1500、Total-Text、ICDAR 2015和ICDAR 2017 MLT数据集上的大量实验验证了PSENet的有效性。特别值得注意的是,在包含大量长曲线文字的CTW1500数据集中,PSENet实现了74.3%的F值(每秒27帧),而我们最好的F值(82.2%)比现有最先进算法高出6.6%。未来我们将发布相关代码。
代码仓库
WenmuZhou/PSENet.pytorch
pytorch
DePengW/PSENet
tf
GitHub 中提及
A-ZHANG1/PSENet
tf
GitHub 中提及
li10141110/PSENet-tf2
tf
GitHub 中提及
yangyucheng000/psenet
mindspore
mindspore-lab/mindocr
mindspore
SimonWang00/psenet.tf2
tf
GitHub 中提及
whai362/PSENet
tf
GitHub 中提及
PaddlePaddle/PaddleOCR
paddle
Mael-zys/PSENet
pytorch
GitHub 中提及
open-mmlab/mmocr
pytorch
MS-Mind/MS-Code-06/tree/main/psenet
mindspore
Mind23-2/MindCode-5/tree/main/psenet
mindspore
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-detection-on-icdar-2015 | PSENet-1s | F-Measure: 85.7 Precision: 86.9 Recall: 84.5 |
| scene-text-detection-on-icdar-2017-mlt-1 | PSENet (ResNet-152) | F-Measure: 72.13% Precision: 75.35 Recall: 69.18 |
| scene-text-detection-on-scut-ctw1500 | PSENet-1s | F-Measure: 82.2 Precision: 84.8 Recall: 79.7 |
| scene-text-detection-on-total-text | PSENet-4s | F-Measure: 79.6% Precision: 84.5 Recall: 75.2 |