4 个月前

面向视觉的网格变换器用于文档布局分析

面向视觉的网格变换器用于文档布局分析

摘要

文档预训练模型和基于网格的模型在文档人工智能(Document AI)的各种任务中已被证明非常有效。然而,对于文档布局分析(DLA)任务,现有的文档预训练模型,即使是在多模态环境下进行预训练的模型,通常也依赖于文本特征或视觉特征之一。基于网格的 DLA 模型虽然具有多模态特性,但很大程度上忽视了预训练的效果。为了充分利用多模态信息并利用预训练技术为 DLA 学习更好的表示方法,在本文中,我们提出了 VGT,一种双流视觉网格变换器(Vision Grid Transformer),其中引入了网格变换器(Grid Transformer, GiT),并对其进行了 2D 词元级和段落级语义理解的预训练。此外,我们整理并发布了名为 D$^4$LA 的新数据集,这是迄今为止最多样化且详尽的手动标注基准数据集,用于文档布局分析。实验结果表明,所提出的 VGT 模型在 DLA 任务上取得了新的最佳性能,例如在 PubLayNet 数据集上的表现从 $95.7\%$ 提升到 $96.2\%$,在 DocBank 数据集上的表现从 $79.6\%$ 提升到 $84.1\%$,以及在 D$^4$LA 数据集上的表现从 $67.7\%$ 提升到 $68.8\%$。代码、模型及 D$^4$LA 数据集将公开发布于 \url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery}。

代码仓库

alibabaresearch/advancedliteratemachinery
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
document-layout-analysis-on-d4laVGT
mAP: 68.8
Model Parameters: 174M
document-layout-analysis-on-publaynet-valResNext-101-32×8d
Figure: 0.968
List: 0.940
Overall: 0.935
Table: 0.976
Text: 0.930
Title: 0.862
document-layout-analysis-on-publaynet-valVGT
Figure: 0.971
List: 0.968
Overall: 0.962
Table: 0.981
Text: 0.950
Title: 0.939

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向视觉的网格变换器用于文档布局分析 | 论文 | HyperAI超神经