BaekJeonghun ; KimGeewook ; LeeJunyeop ; ParkSungrae ; HanDongyoon ; YunSangdoo ; OhSeong Joon ; LeeHwalsuk

摘要
近年来,许多新的场景文本识别(STR)模型提案被提出。尽管每种模型都声称推动了该技术的边界,但由于训练和评估数据集选择的不一致,该领域一直缺乏全面而公正的比较。本文通过三项主要贡献解决了这一难题。首先,我们考察了训练和评估数据集的不一致性及其导致的性能差距。其次,我们引入了一个统一的四阶段STR框架,大多数现有的STR模型都可以纳入其中。利用这一框架可以对之前提出的STR模块进行广泛的评估,并发现以前未探索的模块组合。最后,我们在一个一致的训练和评估数据集集合下,从准确性、速度和内存需求等方面分析了各模块对性能的贡献。这些分析消除了当前比较中的障碍,有助于理解现有模块性能提升的原因。
代码仓库
Luckygyana/Invo-AI
pytorch
GitHub 中提及
Eom-taeseon/CV_SceneTextRecognition
pytorch
GitHub 中提及
clovaai/deep-text-recognition-benchmark
官方
pytorch
GitHub 中提及
luozhilin99/cnnctc
mindspore
GitHub 中提及
2023-MindSpore-1/ms-code-58
mindspore
GitHub 中提及
dmitrijsk/attentionhtr
pytorch
GitHub 中提及
jakartaresearch/receipt-ocr
pytorch
GitHub 中提及
roatienza/deep-text-recognition-benchmark
pytorch
GitHub 中提及
JoegameZhou/cnnctc
mindspore
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-recognition-on-icdar-2003 | Baek et al. | Accuracy: 94.4 |
| scene-text-recognition-on-icdar2013 | Baek et al. | Accuracy: 92.3 |
| scene-text-recognition-on-icdar2015 | Baek et al. | Accuracy: 71.8 |
| scene-text-recognition-on-svt | Baek et al. | Accuracy: 87.5 |