3 个月前

场景文本识别中的上下文感知并行解码器

场景文本识别中的上下文感知并行解码器

摘要

场景文本识别(Scene Text Recognition, STR)方法在实现高精度与快速推理速度之间长期面临挑战。基于自回归(Autoregressive, AR)的模型采用逐字符的方式进行识别,虽然在准确性方面表现优异,但推理速度较慢;而基于并行解码(Parallel Decoding, PD)的模型则能在单次解码过程中同时预测所有字符,显著提升了推理效率,但通常在准确性上有所妥协。本文首先对STR中的AR解码机制进行了实证研究,发现AR解码器不仅能够建模语言上下文,还能有效引导视觉上下文的感知。基于此发现,我们提出一种新型的并行解码架构——上下文感知并行解码器(Context Perception Parallel Decoder, CPPD),用于在一次并行解码过程中完成字符序列的预测。CPPD引入两个核心模块:字符计数模块(character counting module),用于推断每个字符的出现次数;字符排序模块(character ordering module),用于推断与内容无关的阅读顺序及占位符位置。随后,字符预测任务将占位符与具体字符进行关联,从而构建出完整的识别上下文。我们构建了一系列CPPD模型,并将所提出的模块集成到现有的STR解码器中进行验证。在英文与中文基准数据集上的实验结果表明,CPPD模型在保持高度竞争性识别精度的同时,推理速度相较其AR基线模型提升了约8倍。此外,将所提模块“插入”至现有STR解码器后,也显著提升了模型的识别准确率。相关代码已开源,详见:https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_rec_cppd_en.md。

代码仓库

topdu/openocr
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-recognition-on-cute80CPPD
Accuracy: 99.7
scene-text-recognition-on-icdar2015CPPD
Accuracy: 91.7
scene-text-recognition-on-iiit5kCPPD
Accuracy: 99.3
scene-text-recognition-on-svtCPPD
Accuracy: 98.5
scene-text-recognition-on-svtpCPPD
Accuracy: 96.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
场景文本识别中的上下文感知并行解码器 | 论文 | HyperAI超神经