
摘要
本文提出了一种名为TextCohesion的像素级场景文本检测方法,该方法将一个文本实例分解为五个关键组件:文本骨架(Text Skeleton)和四个方向像素区域(Directional Pixel Regions)。这些组件比整个文本实例更容易处理。我们设计了一种置信度评分机制,用于过滤与文本相似的字符。当背景复杂时,我们的方法可以密集地整合文本上下文。在两个具有挑战性的弯曲文本基准数据集上的实验表明,TextCohesion优于现有的最先进方法,在Total-Text数据集上达到了84.6%的F值,在SCUT-CTW1500数据集上达到了86.3%的F值。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| curved-text-detection-on-scut-ctw1500 | TextCohesion | F-Measure: 86.3% |
| scene-text-detection-on-total-text | TextCohesion | F-Measure: 84.6% |