17 天前

基于角点定位与区域分割的多方向场景文本检测

基于角点定位与区域分割的多方向场景文本检测

摘要

基于深度学习的当前最优场景文本检测方法大致可分为两类。第一类将场景文本视为一类通用目标,沿用通用目标检测范式,通过回归文本框位置来定位文本,但难以应对场景文本任意方向性及大宽高比的问题。第二类方法直接对文本区域进行分割,但通常需要复杂的后处理步骤。本文提出一种融合两类方法思想的新方法,同时规避了它们各自的缺点。我们提出通过定位文本边界框的角点并以相对位置进行文本区域分割的方式来检测场景文本。在推理阶段,候选文本框通过采样和分组角点生成,并由分割图进行打分,再经非极大值抑制(NMS)进行抑制。与以往方法相比,该方法能自然处理长条形方向文本,且无需复杂的后处理。在ICDAR2013、ICDAR2015、MSRA-TD500、MLT以及COCO-Text数据集上的实验表明,所提算法在准确率和效率方面均取得了更优或相当的结果。基于VGG16网络结构,在ICDAR2015上达到84.3%的F-measure,在MSRA-TD500上达到81.5%的F-measure。

代码仓库

lvpengyuan/corner
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-detection-on-icdar-2013Corner Localization (multi-scale)
F-Measure: 88%
Precision: 92
Recall: 84.4
scene-text-detection-on-icdar-2015Corner Localization (multi-scale)
F-Measure: 84.3
Precision: 89.5
Recall: 79.7
scene-text-detection-on-icdar-2017-mlt-1Corner Localization (single-scale)
F-Measure: 66.8%
Precision: 83.8
Recall: 55.6
scene-text-detection-on-icdar-2017-mlt-1Corner Localization (multi-scale)
F-Measure: 72.4%
Precision: 74.3
Recall: 70.6
scene-text-detection-on-msra-td500Corner Localization
F-Measure: 81.5
Precision: 87.6
Recall: 76.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供