
摘要
我们提出了一种通用文档处理(Universal Document Processing, UDOP)的基础文档人工智能模型,该模型将文本、图像和布局模态与多种任务格式统一起来,包括文档理解和生成。UDOP 利用了文本内容与文档图像之间的空间相关性,通过一种统一的表示方法来建模图像、文本和布局模态。借助一种新颖的视觉-文本-布局变换器(Vision-Text-Layout Transformer),UDOP 将预训练和多领域下游任务统一为基于提示的序列生成方案。UDOP 在大规模未标注文档语料库上使用创新的自监督目标进行预训练,并在多样化的标注数据上进行学习。此外,UDOP 还通过掩码图像重建从文本和布局模态中生成文档图像。据我们所知,这是文档人工智能领域首次实现一个模型同时具备高质量的神经网络文档编辑和内容定制功能。我们的方法在金融报告、学术论文和网站等多个数据领域的 8 项文档人工智能任务中达到了最先进的水平,例如文档理解和问答。UDOP 在文档理解基准测试的排行榜上排名第一。
代码仓库
MindCode-4/code-5/tree/main/udop
mindspore
pwc-1/Paper-10
mindspore
DS4SD/MarkushGrapher
pytorch
GitHub 中提及
microsoft/i-code
官方
jax
GitHub 中提及
microsoft/udop
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-docvqa-test | UDOP (aux) | ANLS: 0.878 |
| visual-question-answering-on-docvqa-test | UDOP | ANLS: 0.847 |
| visual-question-answering-vqa-on | UDOP | ANLS: 47.4 |
| visual-question-answering-vqa-on | UDOP (aux) | ANLS: 63.0 |