4 个月前

文档布局分析的图形方法

文档布局分析的图形方法

摘要

文档布局分析(DLA)是指检测文档中不同的语义内容并将其正确分类为适当的类别(例如,文本、标题、图表)。DLA流程使用户能够将文档转换为结构化的机器可读格式,从而用于许多有用的下游任务。现有的大多数最先进的(SOTA)DLA模型将文档表示为图像,忽略了电子生成PDF中丰富的元数据。通过直接利用这些元数据,我们将每一页PDF表示为一个结构化图,并将DLA问题框架为图分割和分类问题。我们引入了基于图的布局分析模型(GLAM),这是一种轻量级的图神经网络,在两个具有挑战性的DLA数据集上表现与现有SOTA模型相当——而其规模仅为现有模型的十分之一。特别是,参数量为400万的GLAM模型在DocLayNet数据集的11个类别中的5个类别上优于参数量超过1.4亿的领先计算机视觉模型。这两种模型的简单集成在DocLayNet上达到了新的最先进水平,mAP从76.8提高到80.8。总体而言,GLAM比SOTA模型效率高出5倍以上,使其成为DLA任务的一个有利工程选择。

代码仓库

ivanstepanovftw/glam
pytorch
GitHub 中提及

基准测试

基准方法指标
document-layout-analysis-on-publaynet-valGLAM
Figure: 0.206
List: 0.862
Overall: 0.722
Table: 0.868
Text: 0.878
Title: 0.800

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
文档布局分析的图形方法 | 论文 | HyperAI超神经