Pengfei WangChengquan ZhangFei QiShanshan LiuXiaoqiang ZhangPengyuan LyuJunyu HanJingtuo LiuErrui DingGuangming Shi

摘要
任意形状文本的识别近年来受到越来越多的研究关注。然而,现有的文本检测与识别方法大多基于两阶段框架或基于字符的方法,普遍存在非极大值抑制(Non-Maximum Suppression, NMS)、感兴趣区域(Region-of-Interest, RoI)操作,或依赖字符级标注等问题。为解决上述挑战,本文提出一种全新的全卷积点汇聚网络(Point Gathering Network, PGNet),用于实时识别任意形状的文本。PGNet是一种单阶段文本检测与识别框架,通过引入新型的PG-CTC损失函数,实现了像素级字符分类图的端到端学习,无需依赖字符级别的标注信息。结合PG-CTC解码器,该方法能够从二维空间中汇聚高层字符分类向量,并直接解码为文本符号,整个过程不涉及NMS和RoI操作,从而保证了极高的运行效率。此外,为建模字符与其邻近字符之间的语义关系,本文进一步提出图结构优化模块(Graph Refinement Module, GRM),用于优化粗粒度识别结果,显著提升端到端识别性能。实验结果表明,所提方法在保持优异识别准确率的同时,大幅提升了运行速度。尤其在Total-Text数据集上,系统运行速度达到46.7 FPS,显著超越此前的先进方法。
代码仓库
PaddlePaddle/PaddleOCR
官方
paddle
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-detection-on-icdar-2015 | PGNet-A | Accuracy: 62.3 |
| scene-text-detection-on-icdar-2015 | MCLAB_FCN | F-Measure: 53.6 Precision: 70.8 Recall: 43.0 |
| text-spotting-on-icdar-2015 | PGNet | F-measure (%) - Generic Lexicon: 63.5 F-measure (%) - Strong Lexicon: 83.3 F-measure (%) - Weak Lexicon: 78.3 |