WangJilin ; KrumdickMichael ; TongBaojia ; HalimHamima ; SokolovMaxim ; BardaVadym ; VendryesDelphine ; TannerChris

摘要
文档布局分析(DLA)是指检测文档中不同的语义内容并将其正确分类为适当的类别(例如,文本、标题、图表)。DLA流程使用户能够将文档转换为结构化的机器可读格式,从而用于许多有用的下游任务。现有的大多数最先进的(SOTA)DLA模型将文档表示为图像,忽略了电子生成PDF中丰富的元数据。通过直接利用这些元数据,我们将每一页PDF表示为一个结构化图,并将DLA问题框架为图分割和分类问题。我们引入了基于图的布局分析模型(GLAM),这是一种轻量级的图神经网络,在两个具有挑战性的DLA数据集上表现与现有SOTA模型相当——而其规模仅为现有模型的十分之一。特别是,参数量为400万的GLAM模型在DocLayNet数据集的11个类别中的5个类别上优于参数量超过1.4亿的领先计算机视觉模型。这两种模型的简单集成在DocLayNet上达到了新的最先进水平,mAP从76.8提高到80.8。总体而言,GLAM比SOTA模型效率高出5倍以上,使其成为DLA任务的一个有利工程选择。
代码仓库
ivanstepanovftw/glam
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-layout-analysis-on-publaynet-val | GLAM | Figure: 0.206 List: 0.862 Overall: 0.722 Table: 0.868 Text: 0.878 Title: 0.800 |