
摘要
本文提出了一种新颖的端到端框架,从实例感知的语义分割视角实现多方向场景文本检测。我们提出了融合文本分割网络(Fused Text Segmentation Networks),在特征提取阶段融合多层级特征,以应对文本实例相较于一般物体更依赖精细特征表达的特点。该方法能够联合且同步地完成文本实例的检测与分割,综合了语义分割任务与基于区域建议的物体检测任务的优势。本方法无需引入任何额外处理流程,在多方向场景文本检测基准测试中取得了当前最优性能:在ICDAR2015意外场景文本数据集和MSRA-TD500数据集上,分别达到了84.1%和82.0%的H-mean指标。此外,我们在包含弯曲文本的Total-Text数据集上建立了基准结果,进一步验证了所提方法的有效性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-detection-on-icdar-2015 | FTSN + MNMS | F-Measure: 84.1 Precision: 88.6 Recall: 80 |
| scene-text-detection-on-msra-td500 | FTSN + MNMS | F-Measure: 82 Precision: 87.6 Recall: 77.1 |
| scene-text-detection-on-total-text | FTSN | F-Measure: 81.3% Precision: 84.7 Recall: 78 |