HyperAIHyperAI

Command Palette

Search for a command to run...

面向视觉的网格变换器用于文档布局分析

Cheng Da Chuwei Luo Qi Zheng Cong Yao

摘要

文档预训练模型和基于网格的模型在文档人工智能(Document AI)的各种任务中已被证明非常有效。然而,对于文档布局分析(DLA)任务,现有的文档预训练模型,即使是在多模态环境下进行预训练的模型,通常也依赖于文本特征或视觉特征之一。基于网格的 DLA 模型虽然具有多模态特性,但很大程度上忽视了预训练的效果。为了充分利用多模态信息并利用预训练技术为 DLA 学习更好的表示方法,在本文中,我们提出了 VGT,一种双流视觉网格变换器(Vision Grid Transformer),其中引入了网格变换器(Grid Transformer, GiT),并对其进行了 2D 词元级和段落级语义理解的预训练。此外,我们整理并发布了名为 D4^44LA 的新数据集,这是迄今为止最多样化且详尽的手动标注基准数据集,用于文档布局分析。实验结果表明,所提出的 VGT 模型在 DLA 任务上取得了新的最佳性能,例如在 PubLayNet 数据集上的表现从 95.7%95.7\%95.7% 提升到 96.2%96.2\%96.2%,在 DocBank 数据集上的表现从 79.6%79.6\%79.6% 提升到 84.1%84.1\%84.1%,以及在 D4^44LA 数据集上的表现从 67.7%67.7\%67.7% 提升到 68.8%68.8\%68.8%。代码、模型及 D4^44LA 数据集将公开发布于 \url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery}


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供