
摘要
近年来,预训练技术在视觉丰富的文档理解领域取得了显著的进展和成功。然而,大多数现有方法缺乏对布局中心知识的系统挖掘和利用,导致性能次优。本文提出了一种新的文档预训练解决方案——ERNIE-Layout,在整个工作流程中增强布局知识,以学习更好的表示,结合文本、布局和图像的特征。具体而言,我们首先在序列化阶段重新排列输入序列,然后引入一个相关预训练任务——阅读顺序预测,以学习文档的正确阅读顺序。为了提高模型的布局感知能力,我们将空间感知解耦注意力机制集成到多模态变压器中,并在预训练阶段引入了替换区域预测任务。实验结果表明,ERNIE-Layout 在各种下游任务上表现出色,在关键信息提取、文档图像分类和文档问答数据集上达到了新的最先进水平。代码和模型已在 http://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout 公开发布。
代码仓库
NormXU/ERNIE-Layout-Pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-entity-labeling-on-funsd | ERNIE-Layoutlarge | F1: 93.12 |
| visual-question-answering-on-docvqa-test | ERNIE-Layout large | ANLS: 0.8486 |
| visual-question-answering-on-docvqa-test | ERNIE-Layout large (ensemble) | ANLS: 0.8841 |