3 个月前

TextFuseNet:基于更丰富融合特征的场景文本检测

TextFuseNet:基于更丰富融合特征的场景文本检测

摘要

自然场景中任意形状文本的检测是一项极具挑战性的任务。与现有文本检测方法仅依赖有限的特征表示来感知文本不同,本文提出一种新颖的框架——TextFuseNet,通过融合更丰富的特征以实现更优的文本检测效果。具体而言,我们从字符级、词级和全局级三个层次的特征表示出发感知文本,并引入一种新型的文本特征融合技术,以实现对任意形状文本的鲁棒检测。多层级特征表示能够在将文本分解为独立字符的同时,有效保留其整体语义信息,从而更全面地描述文本特征。TextFuseNet采用多路径融合架构,对来自不同层次的文本特征进行收集与融合,能够有效对齐并整合异构特征表示。在实际应用中,所提出的TextFuseNet能够学习到对任意形状文本更为充分的表征,显著抑制误检(false positives),并生成更精确的检测结果。此外,该框架还可基于弱监督方式进行训练,适用于缺乏字符级标注的语料数据集。在多个公开数据集上的实验结果表明,TextFuseNet达到了当前最优的检测性能:在ICDAR2013数据集上获得94.3%的F-measure,在ICDAR2015上达到92.1%,在Total-Text上为87.1%,在CTW-1500上为86.6%。

基准测试

基准方法指标
scene-text-detection-on-ic19-artTextFuseNet (ResNeXt-101)
H-Mean: 78.6
scene-text-detection-on-icdar-2013TextFuseNet (ResNeXt-101)
F-Measure: 94.61%
Precision: 97.27
Recall: 92.09
scene-text-detection-on-icdar-2015TextFuseNet (ResNeXt-101)
F-Measure: 92.23
Precision: 93.96
Recall: 90.56
scene-text-detection-on-scut-ctw1500TextFuseNet (ResNeXt-101)
F-Measure: 87.4
Precision: 89.7
Recall: 85.1
scene-text-detection-on-total-textTextFuseNet (ResNeXt-101)
F-Measure: 87.5%
Precision: 89.2
Recall: 85.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TextFuseNet:基于更丰富融合特征的场景文本检测 | 论文 | HyperAI超神经