4 个月前

TextBoxes++:一种单次检测的定向场景文本检测器

TextBoxes++:一种单次检测的定向场景文本检测器

摘要

场景文本检测是场景文本识别系统中的一个重要步骤,也是一个具有挑战性的问题。与一般物体检测不同,场景文本检测的主要挑战在于自然图像中文字的任意方向、小尺寸以及显著变化的宽高比。本文提出了一种端到端可训练的快速场景文本检测器,命名为TextBoxes++,该检测器能够在单次网络前向传播中以高精度和高效性检测任意方向的场景文本。除了高效的非极大值抑制外,无需其他后处理步骤。我们已在四个公开数据集上对提出的TextBoxes++进行了评估。在所有实验中,TextBoxes++在文本定位精度和运行时间方面均优于竞争方法。具体而言,对于1024×1024分辨率的ICDAR 2015偶发文本图像,TextBoxes++实现了每秒11.6帧(fps)下的F值为0.817;对于768×768分辨率的COCO-Text图像,实现了每秒19.8帧下的F值为0.5591。此外,结合文本识别器后,TextBoxes++在流行的基准测试中显著优于最先进的方法,用于单词定位和端到端文本识别任务。代码可在以下地址获取:https://github.com/MhLiao/TextBoxes_plusplus

代码仓库

MhLiao/TextBoxes_plusplus
官方
GitHub 中提及
sonamghosh/local_hack_day_2018
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-detection-on-coco-textTextBoxes++_MS
F-Measure: 58.72
Precision: 60.87
Recall: 56.7
scene-text-detection-on-icdar-2013TextBoxes++_MS
F-Measure: 88%%
Precision: 91
Recall: 84
scene-text-detection-on-icdar-2015Quad_MS
F-Measure: 82.9
Precision: 87.8
Recall: 78.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TextBoxes++:一种单次检测的定向场景文本检测器 | 论文 | HyperAI超神经