3 个月前

重新审视场景文本识别中的分类视角

重新审视场景文本识别中的分类视角

摘要

目前主流的场景文本识别方法主要分为两类:序列到序列(seq2seq)和分割(segmentation)方法。然而,前者通常由多个组件构成,导致实现与部署过程复杂;后者则需要字符级别的标注数据,标注成本较高。本文重新审视了分类视角(classification perspective),将场景文本识别建模为图像分类问题。该视角具有结构简洁、仅需词级别标注的优势,显著降低了数据标注与系统实现的复杂性。为此,我们提出了一种名为CSTR(Classification-based Scene Text Recognition)的新模型,以复兴分类视角。CSTR模型由两部分组成:CPNet(分类视角网络)和SPPN(带全局平均池化的分离卷积预测网络)。该模型的架构与ResNet等标准图像分类模型类似,结构简洁,易于实现与部署。通过大量实验,我们验证了分类视角在场景文本识别任务中的有效性。此外,CSTR在六个公开基准数据集上均取得了接近当前最先进水平的性能,涵盖规则文本与不规则文本等多种场景。相关代码已开源,地址为:https://github.com/Media-Smart/vedastr。

代码仓库

Media-Smart/vedastr
官方
pytorch

基准测试

基准方法指标
scene-text-recognition-on-icdar-2003CSTR
Accuracy: 94.8
scene-text-recognition-on-icdar2013CSTR
Accuracy: 93.2
scene-text-recognition-on-icdar2015CSTR
Accuracy: 81.6
scene-text-recognition-on-svtCSTR
Accuracy: 90.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新审视场景文本识别中的分类视角 | 论文 | HyperAI超神经