4 个月前

形状鲁棒的文本检测方法:渐进尺度扩展网络

形状鲁棒的文本检测方法:渐进尺度扩展网络

摘要

场景文字检测近年来取得了快速进展,尤其是在卷积神经网络的发展推动下。然而,仍有两个挑战阻碍了算法在工业应用中的推广。一方面,大多数最先进的算法需要使用四边形边界框来定位任意形状的文字,这种方法不够精确。另一方面,当两个文本实例距离较近时,可能会导致错误检测,将这两个实例合并在一起。传统上,基于分割的方法可以缓解第一个问题,但在解决第二个挑战方面通常表现不佳。为了解决这两个挑战,本文提出了一种新颖的渐进尺度扩展网络(Progressive Scale Expansion Network, PSENet),该网络能够精确检测任意形状的文本实例。具体而言,PSENet为每个文本实例生成不同尺度的内核,并逐步将最小尺度的内核扩展到具有完整形状的文本实例。由于最小尺度内核之间存在较大的几何间隔,我们的方法能够有效地分离靠近的文本实例,从而使得基于分割的方法更容易用于检测任意形状的文本实例。在CTW1500、Total-Text、ICDAR 2015和ICDAR 2017 MLT数据集上的大量实验验证了PSENet的有效性。特别值得注意的是,在包含大量长曲线文字的CTW1500数据集中,PSENet实现了74.3%的F值(每秒27帧),而我们最好的F值(82.2%)比现有最先进算法高出6.6%。未来我们将发布相关代码。

基准测试

基准方法指标
scene-text-detection-on-icdar-2015PSENet-1s
F-Measure: 85.7
Precision: 86.9
Recall: 84.5
scene-text-detection-on-icdar-2017-mlt-1PSENet (ResNet-152)
F-Measure: 72.13%
Precision: 75.35
Recall: 69.18
scene-text-detection-on-scut-ctw1500PSENet-1s
F-Measure: 82.2
Precision: 84.8
Recall: 79.7
scene-text-detection-on-total-textPSENet-4s
F-Measure: 79.6%
Precision: 84.5
Recall: 75.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
形状鲁棒的文本检测方法:渐进尺度扩展网络 | 论文 | HyperAI超神经