8 个月前

摘要

文档预训练模型和基于网格的模型在文档人工智能（Document AI）的各种任务中已被证明非常有效。然而，对于文档布局分析（DLA）任务，现有的文档预训练模型，即使是在多模态环境下进行预训练的模型，通常也依赖于文本特征或视觉特征之一。基于网格的 DLA 模型虽然具有多模态特性，但很大程度上忽视了预训练的效果。为了充分利用多模态信息并利用预训练技术为 DLA 学习更好的表示方法，在本文中，我们提出了 VGT，一种双流视觉网格变换器（Vision Grid Transformer），其中引入了网格变换器（Grid Transformer, GiT），并对其进行了 2D 词元级和段落级语义理解的预训练。此外，我们整理并发布了名为 D $^4$ LA 的新数据集，这是迄今为止最多样化且详尽的手动标注基准数据集，用于文档布局分析。实验结果表明，所提出的 VGT 模型在 DLA 任务上取得了新的最佳性能，例如在 PubLayNet 数据集上的表现从 $95.7\%$ 提升到 $96.2\%$ ，在 DocBank 数据集上的表现从 $79.6\%$ 提升到 $84.1\%$ ，以及在 D $^4$ LA 数据集上的表现从 $67.7\%$ 提升到 $68.8\%$ 。代码、模型及 D $^4$ LA 数据集将公开发布于 \url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery}。