17 天前

通过连接分割区域检测自然图像中的定向文本

通过连接分割区域检测自然图像中的定向文本

摘要

目前大多数最先进的文本检测方法仅适用于水平方向的拉丁文文本,且在实时应用中速度不足。本文提出一种定向文本检测方法——分段连接(Segment Linking, 简称SegLink)。其核心思想是将文本分解为两种局部可检测的元素:分段(segments)和连接(links)。其中,分段是指覆盖单词或文本行一部分的定向矩形框;连接则用于连接两个相邻的分段,表明它们属于同一个单词或文本行。这两种元素通过一个端到端训练的全卷积神经网络,在多个尺度上进行密集检测。最终的检测结果通过将由连接关联的分段进行组合生成。与以往方法相比,SegLink在检测精度、运行速度和训练便捷性方面均有所提升。在标准的ICDAR 2015偶然文本检测(Challenge 4)基准测试中,SegLink取得了75.0%的F-measure,显著优于此前最佳方法。在512×512分辨率的图像上,其运行速度超过20 FPS。此外,无需任何修改,SegLink即可有效检测非拉丁文的长文本行,例如中文。

代码仓库

GuoLiuFang/seglink-lfs
tf
GitHub 中提及
dengdan/seglink
tf
GitHub 中提及
YohannaYin/segmentlink_yh
tf
GitHub 中提及
curbmap/curbmap-ml
tf
GitHub 中提及
bgshih/seglink
tf
GitHub 中提及

基准测试

基准方法指标
scene-text-detection-on-icdar-2013SegLink
F-Measure: 85.3%
Precision: 87.7
Recall: 83
scene-text-detection-on-icdar-2015WordSup (VGG16-synth-icdar)
F-Measure: 78.2
Precision: 79.3
Recall: 77.0
scene-text-detection-on-msra-td500SegLink
F-Measure: 77
Precision: 86
Recall: 70

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过连接分割区域检测自然图像中的定向文本 | 论文 | HyperAI超神经