3 个月前

卷积字符网络

卷积字符网络

摘要

近年来,在自然图像中实现文本检测与识别的统一框架方面取得了显著进展。然而,现有的联合模型大多基于两阶段框架,依赖区域建议池化(ROI pooling)操作,这在一定程度上限制了识别任务的性能表现。为此,本文提出了一种称为CharNet的卷积字符网络,该模型为单阶段架构,能够在一次前向传播中同时完成文本检测与识别任务。CharNet直接输出单词和字符的边界框及其对应的字符标签。通过将字符作为基本处理单元,我们克服了现有方法在联合优化文本检测与基于RNN的识别分支时所面临的核心难题。此外,本文还提出了一种迭代字符检测方法,能够有效将从合成数据中学到的字符检测能力迁移至真实场景图像中。上述技术改进使得CharNet成为一个结构简洁、紧凑且性能强大的单阶段模型,能够稳定处理多方向及弯曲文本。我们在三个标准基准数据集上对CharNet进行了评估,结果表明其在端到端文本识别任务中始终显著优于当前最先进方法,例如在ICDAR 2015数据集上,使用通用词典时识别准确率从65.33%提升至71.08%;在Total-Text数据集上,准确率从54.0%提升至69.23%。相关代码已开源,地址为:https://github.com/MalongTech/research-charnet。

代码仓库

基准测试

基准方法指标
scene-text-detection-on-icdar-2015CharNet H-88 (multi-scale)
F-Measure: 91.55
Precision: 92.65
Recall: 90.47
scene-text-detection-on-icdar-2015CharNet H-57 (single-scale)
F-Measure: 89.66
Precision: 88.88
Recall: 90.45
scene-text-detection-on-icdar-2015CharNet H-57 (multi-scale)
F-Measure: 90.06
Precision: 91.43
Recall: 88.74
scene-text-detection-on-icdar-2015CharNet H-50 (multi-scale)
F-Measure: 90.16
Precision: 90.9
Recall: 89.44
scene-text-detection-on-icdar-2015CharNet H-88 (single-scale)
F-Measure: 90.97
Precision: 89.99
Recall: 91.98
scene-text-detection-on-icdar-2015CharNet H-50 (single-scale)
F-Measure: 89.7
Precision: 91.15
Recall: 88.3
scene-text-detection-on-icdar-2017-mlt-1CharNet R-50
F-Measure: 73.42%
Precision: 77.07
Recall: 70.1
scene-text-detection-on-icdar-2017-mlt-1CharNet H-88
F-Measure: 75.77%
Precision: 81.27
Recall: 70.97
scene-text-detection-on-total-textCharNet H-88
F-Measure: 85.6%
Precision: 89.9
Recall: 81.7
scene-text-detection-on-total-textCharNet H-88 (multi-scale)
F-Measure: 86.5%
Precision: 88
Recall: 85

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
卷积字符网络 | 论文 | HyperAI超神经