6 个月前

计算机视觉

卷积神经网络

计算机视觉

Denis Coquenet Clément Chatelain Thierry Paquet

摘要

无约束手写文本识别对计算机视觉系统而言仍是一项具有挑战性的任务。传统的段落文本识别通常依赖于两个模型：第一个模型用于文本行分割，第二个模型用于文本行识别。本文提出一种基于混合注意力机制的统一端到端模型，以解决该问题。该模型设计为逐行迭代处理段落图像，整体结构可分为三个模块：首先，编码器从整幅段落图像中生成特征图；随后，注意力模块通过递归方式生成垂直加权掩码，使模型能够聚焦于当前文本行的特征，从而实现一种隐式的文本行分割；最后，解码器模块对每一行的特征进行字符序列识别，最终完成整段文本的识别。在三个主流数据集上，该方法在段落级别的字符错误率（CER）上均达到当前最优水平：RIMES数据集为1.91%，IAM数据集为4.45%，READ 2016数据集为3.59%。相关代码及训练好的模型权重已开源，地址为：https://github.com/FactoDeepLearning/VerticalAttentionOCR。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

卷积神经网络

计算机视觉

Denis Coquenet Clément Chatelain Thierry Paquet

摘要

无约束手写文本识别对计算机视觉系统而言仍是一项具有挑战性的任务。传统的段落文本识别通常依赖于两个模型：第一个模型用于文本行分割，第二个模型用于文本行识别。本文提出一种基于混合注意力机制的统一端到端模型，以解决该问题。该模型设计为逐行迭代处理段落图像，整体结构可分为三个模块：首先，编码器从整幅段落图像中生成特征图；随后，注意力模块通过递归方式生成垂直加权掩码，使模型能够聚焦于当前文本行的特征，从而实现一种隐式的文本行分割；最后，解码器模块对每一行的特征进行字符序列识别，最终完成整段文本的识别。在三个主流数据集上，该方法在段落级别的字符错误率（CER）上均达到当前最优水平：RIMES数据集为1.91%，IAM数据集为4.45%，READ 2016数据集为3.59%。相关代码及训练好的模型权重已开源，地址为：https://github.com/FactoDeepLearning/VerticalAttentionOCR。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供