4 个月前

场景文本识别模型比较中存在什么问题?数据集和模型分析

场景文本识别模型比较中存在什么问题?数据集和模型分析

摘要

近年来,许多新的场景文本识别(STR)模型提案被提出。尽管每种模型都声称推动了该技术的边界,但由于训练和评估数据集选择的不一致,该领域一直缺乏全面而公正的比较。本文通过三项主要贡献解决了这一难题。首先,我们考察了训练和评估数据集的不一致性及其导致的性能差距。其次,我们引入了一个统一的四阶段STR框架,大多数现有的STR模型都可以纳入其中。利用这一框架可以对之前提出的STR模块进行广泛的评估,并发现以前未探索的模块组合。最后,我们在一个一致的训练和评估数据集集合下,从准确性、速度和内存需求等方面分析了各模块对性能的贡献。这些分析消除了当前比较中的障碍,有助于理解现有模块性能提升的原因。

基准测试

基准方法指标
scene-text-recognition-on-icdar-2003Baek et al.
Accuracy: 94.4
scene-text-recognition-on-icdar2013Baek et al.
Accuracy: 92.3
scene-text-recognition-on-icdar2015Baek et al.
Accuracy: 71.8
scene-text-recognition-on-svtBaek et al.
Accuracy: 87.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
场景文本识别模型比较中存在什么问题?数据集和模型分析 | 论文 | HyperAI超神经