3 个月前

基于垂直注意力网络的端到端手写段落文本识别

基于垂直注意力网络的端到端手写段落文本识别

摘要

无约束手写文本识别对计算机视觉系统而言仍是一项具有挑战性的任务。传统的段落文本识别通常依赖于两个模型:第一个模型用于文本行分割,第二个模型用于文本行识别。本文提出一种基于混合注意力机制的统一端到端模型,以解决该问题。该模型设计为逐行迭代处理段落图像,整体结构可分为三个模块:首先,编码器从整幅段落图像中生成特征图;随后,注意力模块通过递归方式生成垂直加权掩码,使模型能够聚焦于当前文本行的特征,从而实现一种隐式的文本行分割;最后,解码器模块对每一行的特征进行字符序列识别,最终完成整段文本的识别。在三个主流数据集上,该方法在段落级别的字符错误率(CER)上均达到当前最优水平:RIMES数据集为1.91%,IAM数据集为4.45%,READ 2016数据集为3.59%。相关代码及训练好的模型权重已开源,地址为:https://github.com/FactoDeepLearning/VerticalAttentionOCR。

代码仓库

FactoDeepLearning/VerticalAttentionOCR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
handwritten-text-recognition-on-iamVAN
CER: 4.32
WER: 16.24
handwritten-text-recognition-on-iam-lineVAN
Test CER: 5.0
Test WER: 16.3
handwritten-text-recognition-on-read2016-lineVAN
Test CER: 4.1
Test WER: 16.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于垂直注意力网络的端到端手写段落文本识别 | 论文 | HyperAI超神经