
摘要
目前大多数最先进的文本检测方法仅适用于水平方向的拉丁文文本,且在实时应用中速度不足。本文提出一种定向文本检测方法——分段连接(Segment Linking, 简称SegLink)。其核心思想是将文本分解为两种局部可检测的元素:分段(segments)和连接(links)。其中,分段是指覆盖单词或文本行一部分的定向矩形框;连接则用于连接两个相邻的分段,表明它们属于同一个单词或文本行。这两种元素通过一个端到端训练的全卷积神经网络,在多个尺度上进行密集检测。最终的检测结果通过将由连接关联的分段进行组合生成。与以往方法相比,SegLink在检测精度、运行速度和训练便捷性方面均有所提升。在标准的ICDAR 2015偶然文本检测(Challenge 4)基准测试中,SegLink取得了75.0%的F-measure,显著优于此前最佳方法。在512×512分辨率的图像上,其运行速度超过20 FPS。此外,无需任何修改,SegLink即可有效检测非拉丁文的长文本行,例如中文。
代码仓库
GuoLiuFang/seglink-lfs
tf
GitHub 中提及
dengdan/seglink
tf
GitHub 中提及
YohannaYin/segmentlink_yh
tf
GitHub 中提及
curbmap/curbmap-ml
tf
GitHub 中提及
bgshih/seglink
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-detection-on-icdar-2013 | SegLink | F-Measure: 85.3% Precision: 87.7 Recall: 83 |
| scene-text-detection-on-icdar-2015 | WordSup (VGG16-synth-icdar) | F-Measure: 78.2 Precision: 79.3 Recall: 77.0 |
| scene-text-detection-on-msra-td500 | SegLink | F-Measure: 77 Precision: 86 Recall: 70 |