3 个月前

基于置换自回归序列模型的场景文本识别

基于置换自回归序列模型的场景文本识别

摘要

上下文感知的文本识别(STR)方法通常采用内部自回归(AR)语言模型(LM)。然而,AR模型固有的局限性促使研究者提出两阶段方法,该方法引入外部语言模型以提升性能。然而,外部语言模型与输入图像之间的条件独立性可能导致其错误修正本已正确的预测,从而造成显著的效率损失。为此,本文提出PARSeq方法,该方法通过排列语言建模(Permutation Language Modeling)学习一组共享权重的内部自回归语言模型,构建模型集成。PARSeq统一了无上下文的非自回归(non-AR)推理与上下文感知的自回归推理,并支持利用双向上下文进行迭代优化。在合成数据上训练时,PARSeq在标准STR基准测试中取得了当前最优(SOTA)性能(准确率达91.9%),并在更具挑战性的数据集上表现优异;当在真实数据上训练时,进一步刷新了SOTA记录(准确率达96.0%)。得益于其简洁统一的架构和并行化的词元处理机制,PARSeq在准确率与参数量、浮点运算量(FLOPS)及推理延迟之间的权衡上表现最优。由于其广泛使用注意力机制,该方法对现实图像中常见的任意方向文本具有良好的鲁棒性。相关代码、预训练权重及数据集均已开源,地址为:https://github.com/baudm/parseq。

代码仓库

baudm/parseq
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-recognition-on-coco-textPARSeq
1:1 Accuracy: 79.8±0.1
scene-text-recognition-on-cute80PARSeq
Accuracy: 98.3±0.6
scene-text-recognition-on-ic19-artPARSeq
Accuracy (%): 84.5±0.1
scene-text-recognition-on-icdar2013PARSeq
Accuracy: 98.4±0.2
scene-text-recognition-on-icdar2015PARSeq
Accuracy: 89.6±0.3
scene-text-recognition-on-iiit5kPARSeq
Accuracy: 99.1±0.1
scene-text-recognition-on-svtPARSeq
Accuracy: 97.9±0.2
scene-text-recognition-on-svtpPARSeq
Accuracy: 95.7±0.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供