3 个月前

PGNet:基于点聚集网络的实时任意形状文本检测与识别

PGNet:基于点聚集网络的实时任意形状文本检测与识别

摘要

任意形状文本的识别近年来受到越来越多的研究关注。然而,现有的文本检测与识别方法大多基于两阶段框架或基于字符的方法,普遍存在非极大值抑制(Non-Maximum Suppression, NMS)、感兴趣区域(Region-of-Interest, RoI)操作,或依赖字符级标注等问题。为解决上述挑战,本文提出一种全新的全卷积点汇聚网络(Point Gathering Network, PGNet),用于实时识别任意形状的文本。PGNet是一种单阶段文本检测与识别框架,通过引入新型的PG-CTC损失函数,实现了像素级字符分类图的端到端学习,无需依赖字符级别的标注信息。结合PG-CTC解码器,该方法能够从二维空间中汇聚高层字符分类向量,并直接解码为文本符号,整个过程不涉及NMS和RoI操作,从而保证了极高的运行效率。此外,为建模字符与其邻近字符之间的语义关系,本文进一步提出图结构优化模块(Graph Refinement Module, GRM),用于优化粗粒度识别结果,显著提升端到端识别性能。实验结果表明,所提方法在保持优异识别准确率的同时,大幅提升了运行速度。尤其在Total-Text数据集上,系统运行速度达到46.7 FPS,显著超越此前的先进方法。

基准测试

基准方法指标
scene-text-detection-on-icdar-2015PGNet-A
Accuracy: 62.3
scene-text-detection-on-icdar-2015MCLAB_FCN
F-Measure: 53.6
Precision: 70.8
Recall: 43.0
text-spotting-on-icdar-2015PGNet
F-measure (%) - Generic Lexicon: 63.5
F-measure (%) - Strong Lexicon: 83.3
F-measure (%) - Weak Lexicon: 78.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PGNet:基于点聚集网络的实时任意形状文本检测与识别 | 论文 | HyperAI超神经