6 个月前

摘要

自然场景中任意形状文本的检测是一项极具挑战性的任务。与现有文本检测方法仅依赖有限的特征表示来感知文本不同，本文提出一种新颖的框架——TextFuseNet，通过融合更丰富的特征以实现更优的文本检测效果。具体而言，我们从字符级、词级和全局级三个层次的特征表示出发感知文本，并引入一种新型的文本特征融合技术，以实现对任意形状文本的鲁棒检测。多层级特征表示能够在将文本分解为独立字符的同时，有效保留其整体语义信息，从而更全面地描述文本特征。TextFuseNet采用多路径融合架构，对来自不同层次的文本特征进行收集与融合，能够有效对齐并整合异构特征表示。在实际应用中，所提出的TextFuseNet能够学习到对任意形状文本更为充分的表征，显著抑制误检（false positives），并生成更精确的检测结果。此外，该框架还可基于弱监督方式进行训练，适用于缺乏字符级标注的语料数据集。在多个公开数据集上的实验结果表明，TextFuseNet达到了当前最优的检测性能：在ICDAR2013数据集上获得94.3%的F-measure，在ICDAR2015上达到92.1%，在Total-Text上为87.1%，在CTW-1500上为86.6%。

源 PDF 查看代码