4 个月前

一种端到端可训练的神经网络用于基于图像的序列识别及其在场景文本识别中的应用

一种端到端可训练的神经网络用于基于图像的序列识别及其在场景文本识别中的应用

摘要

基于图像的序列识别一直是计算机视觉领域的长期研究课题。本文探讨了场景文字识别问题,这是基于图像的序列识别中最重要且最具挑战性的任务之一。我们提出了一种新颖的神经网络架构,该架构将特征提取、序列建模和转录集成到一个统一的框架中。与现有的场景文字识别系统相比,所提出的架构具有四个显著特点:(1)端到端可训练,而大多数现有算法的各个组件是分别训练和调优的;(2)能够自然处理任意长度的序列,无需进行字符分割或水平尺度归一化;(3)不受任何预定义词典的限制,在无词典和有词典的场景文字识别任务中均表现出色;(4)生成了一个高效且体积更小的模型,这在实际应用中更为实用。我们在包括IIIT-5K、Street View Text和ICDAR数据集在内的标准基准上进行了实验,结果表明所提出的算法优于先前的技术。此外,所提出的算法在基于图像的乐谱识别任务中也表现良好,这显然验证了其通用性。

代码仓库

Yuting-Gao/CRNN_Mxnet
tf
GitHub 中提及
courao/ocr.pytorch
pytorch
GitHub 中提及
Liumihan/CRNN_pytorch
pytorch
GitHub 中提及
9ruddls3/CRNN_Pytorch
pytorch
GitHub 中提及
cjxxx0/license
tf
GitHub 中提及
chauthehan/CRNN_OCR_CMND
GitHub 中提及
Crespo-dong/caffe_ocr
GitHub 中提及
zwenwang/CTPN_Pytorch
pytorch
GitHub 中提及
lostsword/character_recognition
mindspore
GitHub 中提及
bai-shang/crnn_ctc_ocr_tf
tf
GitHub 中提及
tranbahien/CTC-OCR
tf
GitHub 中提及
githubharald/simplehtr
tf
GitHub 中提及
zhiqwang/image-captioning
pytorch
GitHub 中提及
DnanaDev/CRNN_for_OCR
tf
GitHub 中提及
HassamChundrigar/Urdu-Ocr
tf
GitHub 中提及
nithyadurai87/pottan-ocr-tamil
pytorch
GitHub 中提及
qjadud1994/CRNN-Keras
tf
GitHub 中提及
zhiqwang/crnn.pytorch
pytorch
GitHub 中提及
solivr/tf-crnn
tf
GitHub 中提及
CodeAchieveDream/crnn_model
pytorch
GitHub 中提及
mindee/doctr
pytorch
GitHub 中提及
shivaverma/Score-Time-Detection
pytorch
GitHub 中提及
sbillburg/CRNN-with-STN
tf
GitHub 中提及
WenmuZhou/PytorchOCR
pytorch
GitHub 中提及
mineshmathew/pytorch_rnn_examples
pytorch
GitHub 中提及
jackknife007/crnn
tf
GitHub 中提及
zyasjtu/CNN-RNN-CTC
tf
GitHub 中提及
GitYCC/crnn-pytorch
pytorch
GitHub 中提及
DCSong/CRNN-DenseNet
pytorch
GitHub 中提及
FLming/CRNN.tf2
tf
GitHub 中提及
xmy0916/pytorch_crnn
pytorch
GitHub 中提及
JaidedAI/EasyOCR
pytorch
GitHub 中提及
sonamghosh/local_hack_day_2018
pytorch
GitHub 中提及
bgshih/crnn
pytorch
GitHub 中提及
shreshtashetty/OCR
tf
GitHub 中提及
anuragcp/iocl-deepocr
tf
GitHub 中提及
topdu/openocr
pytorch
GitHub 中提及
cipri-tom/type-aware-crnn
tf
GitHub 中提及
lidongliang666/cv_deep_learning
pytorch
GitHub 中提及
xusongpei/crnn-ctc
tf
GitHub 中提及
sgenza/tf_crnn
tf
GitHub 中提及
bharatsush/TextSpotting
tf
GitHub 中提及
PaddlePaddle/PaddleOCR
paddle
GitHub 中提及
foamliu/CRNN
pytorch
GitHub 中提及
senlinuc/caffe_ocr
GitHub 中提及
abhiraman/Capstone_Project
pytorch
GitHub 中提及
harish2704/pottan-ocr
pytorch
GitHub 中提及
juanluisrosaramos/CRNN_OCR
tf
GitHub 中提及
carnotaur/crnn-tutorial
pytorch
GitHub 中提及
bai-shang/OCR_TF_CRNN_CTC
tf
GitHub 中提及
Liumihan/CRNN_kreas
tf
GitHub 中提及
weinman/cnn_lstm_ctc_ocr
tf
GitHub 中提及
SYR-Aegis/BrailleOCR
pytorch
GitHub 中提及
Media-Smart/vedastr
pytorch
GitHub 中提及
L706077/OCR-CRNN
pytorch
GitHub 中提及
wacr2008/tensorflow_crnn
tf
GitHub 中提及

基准测试

基准方法指标
scene-text-recognition-on-icdar-2003CRNN
Accuracy: 89.4
scene-text-recognition-on-icdar2013CRNN
Accuracy: 86.7
scene-text-recognition-on-svtCRNN
Accuracy: 80.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种端到端可训练的神经网络用于基于图像的序列识别及其在场景文本识别中的应用 | 论文 | HyperAI超神经