3 个月前

文本感知机:迈向端到端任意形状文本识别

文本感知机:迈向端到端任意形状文本识别

摘要

近年来,众多方法被提出用于检测不规则场景文本,并取得了令人瞩目的成果。然而,这些方法的定位结果往往难以满足后续文本识别任务的需求,主要原因有两个:其一,任意形状文本的识别仍是极具挑战性的任务;其二,当前普遍采用的不可训练的检测-识别流水线架构会导致性能次优。为解决这一不兼容问题,本文提出一种端到端可训练的文本检测与识别方法——Text Perceptron。具体而言,Text Perceptron 首先采用一种高效的基于分割的文本检测器,该检测器能够学习文本的潜在阅读顺序及边界信息。随后,设计了一种新颖的形状变换模块(Shape Transform Module,简称 STM),可在不引入额外参数的情况下,将检测得到的特征区域转换为规则的几何形态。该模块将文本检测与后续识别部分统一于一个完整框架中,有助于整个网络实现全局优化。实验结果表明,所提方法在两个标准文本基准数据集 ICDAR 2013 和 ICDAR 2015 上取得了具有竞争力的性能,同时在不规则文本基准数据集 SCUT-CTW1500 和 Total-Text 上显著优于现有方法。

代码仓库

基准测试

基准方法指标
text-spotting-on-icdar-2015TextPerceptron
F-measure (%) - Generic Lexicon: 65.1
F-measure (%) - Strong Lexicon: 80.5
F-measure (%) - Weak Lexicon: 76.6
text-spotting-on-scut-ctw1500TextPerceptron
F-measure (%) - No Lexicon: 57.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
文本感知机:迈向端到端任意形状文本识别 | 论文 | HyperAI超神经