
摘要
在深度神经网络和大规模数据集的推动下,场景文本检测方法在过去几年中取得了显著进展,不断刷新各种标准基准上的性能记录。然而,由于采用的表示方法(轴对齐矩形、旋转矩形或四边形)的限制,现有方法在处理更为自由形式的文本实例时可能表现不佳,例如弯曲文本,这在实际场景中非常常见。为了解决这一问题,我们提出了一种更加灵活的场景文本表示方法,称为TextSnake,该方法能够有效表示水平、倾斜和弯曲形式的文本实例。在TextSnake中,一个文本实例被描述为一系列有序且重叠的圆盘,这些圆盘以对称轴为中心,并且每个圆盘都具有潜在可变的半径和方向。这些几何属性通过全卷积网络(FCN)模型进行估计。实验结果表明,基于TextSnake的文本检测器在Total-Text和SCUT-CTW1500这两个新发布的强调自然图像中弯曲文本的基准上达到了最先进的或相当的性能,并且在广泛使用的ICDAR 2015和MSRA-TD500数据集上也表现出色。具体而言,TextSnake在Total-Text上的F值比基线方法提高了超过40%。
代码仓库
open-mmlab/mmocr
pytorch
speakstone/TextSnake
pytorch
GitHub 中提及
princewang1994/TextSnake.pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| curved-text-detection-on-scut-ctw1500 | TextSnake [[Long et al.(2018)Long, Ruan, Zhang, He, Wu, and Yao]] | F-Measure: 75.6% |
| scene-text-detection-on-icdar-2015 | PixelLink+VGG16 2s | F-Measure: 83.7 Precision: 85.5 Recall: 82 |
| scene-text-detection-on-msra-td500 | TextSnake | F-Measure: 78.3 Precision: 83.2 Recall: 73.9 |
| scene-text-detection-on-scut-ctw1500 | TextSnake | F-Measure: 75.6 Precision: 67.9 Recall: 85.3 |
| scene-text-detection-on-total-text | TextSnake | F-Measure: 78.4% Precision: 82.7 Recall: 74.5 |