8 个月前

摘要

本文提出了一种名为TextCohesion的像素级场景文本检测方法，该方法将一个文本实例分解为五个关键组件：文本骨架（Text Skeleton）和四个方向像素区域（Directional Pixel Regions）。这些组件比整个文本实例更容易处理。我们设计了一种置信度评分机制，用于过滤与文本相似的字符。当背景复杂时，我们的方法可以密集地整合文本上下文。在两个具有挑战性的弯曲文本基准数据集上的实验表明，TextCohesion优于现有的最先进方法，在Total-Text数据集上达到了84.6%的F值，在SCUT-CTW1500数据集上达到了86.3%的F值。

源 PDF