4 个月前

DAN:一种无需分割的文档注意力网络用于手写文档识别

DAN:一种无需分割的文档注意力网络用于手写文档识别

摘要

无约束手写文本识别是一项具有挑战性的计算机视觉任务。传统上,这一任务通过两步方法来处理,即先进行行分割,再进行文本行识别。首次,我们提出了一种用于手写文档识别的端到端无分割架构:文档注意力网络(Document Attention Network)。除了文本识别外,该模型还训练用于以类似XML的方式使用开始和结束标签对手写文本部分进行标记。该模型由一个全卷积网络(FCN)编码器组成,用于特征提取,以及一堆变压器解码层,用于递归的逐字符预测过程。它以整篇文档为输入,并依次输出字符及逻辑布局标记。与现有的基于分割的方法不同,该模型在训练过程中未使用任何分割标签。我们在READ 2016数据集的页面级和双页级测试中分别达到了3.43%和3.70%的字符错误率(CER),取得了有竞争力的结果。此外,我们还在RIMES 2009数据集的页面级测试中达到了4.54%的CER。我们已将所有源代码和预训练模型权重发布在 https://github.com/FactoDeepLearning/DAN。

代码仓库

factodeeplearning/dan
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
handwritten-text-recognition-on-read-2016DAN
CER (%): 3.22
WER (%): 13.63
handwritten-text-recognition-on-read2016-lineDAN
Test CER: 4.1
Test WER: 17.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DAN:一种无需分割的文档注意力网络用于手写文档识别 | 论文 | HyperAI超神经