3 个月前

基于语义推理网络的精准场景文本识别

基于语义推理网络的精准场景文本识别

摘要

场景文本图像包含两个层次的内容:视觉纹理与语义信息。尽管近年来已有诸多场景文本识别方法取得了显著进展,但针对挖掘语义信息以辅助文本识别的研究仍相对不足,现有工作大多仅探索了类似RNN的结构来隐式建模语义信息。然而,我们观察到基于RNN的方法存在明显缺陷,例如依赖时间顺序的解码方式以及语义上下文的一维串行传播机制,这些限制显著削弱了语义信息的有效性,并制约了计算效率。为缓解上述问题,本文提出一种新颖的端到端可训练框架——语义推理网络(Semantic Reasoning Network, SRN),其中引入全局语义推理模块(Global Semantic Reasoning Module, GSRM),通过多路并行传输机制捕捉全局语义上下文。在7个公开基准数据集上的实验结果表明,该方法在规则文本、不规则文本及非拉丁语系长文本等多种场景下均取得了当前最优性能,充分验证了其有效性与鲁棒性。此外,SRN在推理速度上显著优于基于RNN的方法,展现出在实际应用中的重要价值。

代码仓库

PaddlePaddle/PaddleOCR
paddle
GitHub 中提及

基准测试

基准方法指标
optical-character-recognition-on-benchmarkingSRN
Accuracy (%): 65.0
scene-text-recognition-on-icdar2013SRN
Accuracy: 95.5
scene-text-recognition-on-svtSRN
Accuracy: 91.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于语义推理网络的精准场景文本识别 | 论文 | HyperAI超神经