4 个月前

FOTS:基于统一网络的快速定向文本检测

FOTS:基于统一网络的快速定向文本检测

摘要

偶然场景文本检测被认为是文档分析领域中最困难且最有价值的挑战之一。现有的大多数方法将文本检测和识别视为两个独立的任务。在本研究中,我们提出了一种统一的端到端可训练的快速定向文本检测(Fast Oriented Text Spotting, FOTS)网络,用于同时进行检测和识别,该网络在这两个互补任务之间共享计算和视觉信息。特别地,引入了RoIRotate以在检测和识别之间共享卷积特征。得益于卷积共享策略,我们的FOTS相比基线文本检测网络几乎没有额外的计算开销,而联合训练方法则学习到了更为通用的特征,使得我们的方法在这类两阶段方法中表现更优。在ICDAR 2015、ICDAR 2017 MLT和ICDAR 2013数据集上的实验表明,所提出的方法显著优于现有最先进方法,并进一步使我们能够开发出首个实时定向文本检测系统,在ICDAR 2015文本检测任务上比所有先前的最先进结果高出超过5%,同时保持了22.6帧每秒的速度。

代码仓库

Pay20Y/FOTS_TF
tf
GitHub 中提及
Masao-Taketani/FOTS_OCR
tf
GitHub 中提及
ArashJavan/FOTS
tf
GitHub 中提及
jiangxiluning/FOTS.PyTorch
pytorch
GitHub 中提及
Kaushal28/FOTS-PyTorch
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-detection-on-icdar-2015FOTS
F-Measure: 87.99
Precision: 91
Recall: 85.17
scene-text-detection-on-icdar-2015FOTS MS
F-Measure: 89.84
Precision: 91.85
Recall: 87.92
scene-text-detection-on-icdar-2017-mlt-1FOTS MS
F-Measure: 70.75%
Precision: 81.86
Recall: 62.3
scene-text-detection-on-icdar-2017-mlt-1FOTS
F-Measure: 67.25%
Precision: 80.95
Recall: 57.51
text-spotting-on-icdar-2015FOTS
F-measure (%) - Generic Lexicon: 62.2
F-measure (%) - Strong Lexicon: 83.6
F-measure (%) - Weak Lexicon: 74.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FOTS:基于统一网络的快速定向文本检测 | 论文 | HyperAI超神经