KimGeewook ; HongTeakgyu ; YimMoonbin ; NamJeongyeon ; ParkJinyoung ; YimJinyeong ; HwangWonseok ; YunSangdoo ; HanDongyoon ; ParkSeunghyun

摘要
理解文档图像(例如,发票)是一项核心但具有挑战性的任务,因为它需要复杂的功能,如读取文本和对文档的整体理解。当前的视觉文档理解(VDU)方法通常将读取文本的任务外包给现成的光学字符识别(OCR)引擎,并专注于利用OCR输出进行理解任务。尽管基于OCR的方法已经展现出有希望的性能,但它们存在以下问题:1)使用OCR导致的高计算成本;2)OCR模型在语言或文档类型上的灵活性不足;3)OCR错误传播到后续处理过程。为了解决这些问题,本文介绍了一种新的无OCR的VDU模型——Donut,即文档理解变压器(Document Understanding Transformer)。作为无OCR VDU研究的第一步,我们提出了一种简单的架构(即Transformer)和预训练目标(即交叉熵损失)。Donut在概念上简单却有效。通过广泛的实验和分析,我们展示了简单的无OCR VDU模型Donut在各种VDU任务中均达到了最先进的性能,无论是在速度还是准确性方面。此外,我们提供了一个合成数据生成器,有助于模型在多种语言和领域中灵活预训练。代码、训练好的模型和合成数据可在https://github.com/clovaai/donut获取。
代码仓库
clovaai/donut
官方
pytorch
GitHub 中提及
impira/docquery
pytorch
GitHub 中提及
MindCode-4/code-3/tree/main/donut
mindspore
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-image-classification-on-rvl-cdip | Donut | Accuracy: 95.3% |
| key-value-pair-extraction-on-rfund-en | Donut | key-value pair F1: 24.54 |
| key-value-pair-extraction-on-sibr | Donut | key-value pair F1: 17.26 |
| visual-question-answering-on-docvqa-test | Donut | ANLS: 0.675 |