4 个月前

PubLayNet:迄今为止最大的文档布局分析数据集

PubLayNet:迄今为止最大的文档布局分析数据集

摘要

识别非结构化数字文档的布局是在将这些文档解析为下游应用所需的结构化机器可读格式时的重要步骤。用于计算机视觉的深度神经网络已被证明是分析文档图像布局的有效方法。然而,目前公开可用的文档布局数据集比成熟的计算机视觉数据集小几个数量级。因此,模型必须通过从在传统计算机视觉数据集上预训练的基础模型进行迁移学习来训练。在本文中,我们通过自动匹配PubMed Central上公开的100多万篇PDF文章的XML表示和内容,开发了PubLayNet数据集,用于文档布局分析。该数据集的规模与成熟的计算机视觉数据集相当,包含超过36万张文档图像,其中标注了典型的文档布局元素。实验结果表明,基于PubLayNet训练的深度神经网络能够准确识别科学文章的布局。此外,预训练模型作为不同文档领域的迁移学习基础模型也更为有效。我们发布了该数据集(https://github.com/ibm-aur-nlp/PubLayNet),以支持更先进文档布局分析模型的开发和评估。

代码仓库

ibm-aur-nlp/PubLayNet
官方
GitHub 中提及
phamquiluan/publaynet
pytorch
GitHub 中提及
ibm-aur-nlp/PubTabNet
GitHub 中提及
adlnlp/doc_gcn
tf
GitHub 中提及

基准测试

基准方法指标
document-layout-analysis-on-publaynet-valFaster RCNN
Figure: 0.937
List: 0.883
Overall: 0.902
Table: 0.954
Text: 0.910
Title: 0.826
document-layout-analysis-on-publaynet-valMask RCNN
Figure: 0.949
List: 0.886
Overall: 0.910
Table: 0.960
Text: 0.916
Title: 0.840

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PubLayNet:迄今为止最大的文档布局分析数据集 | 论文 | HyperAI超神经