
摘要
文档对提取旨在从视觉丰富的文档中识别关键实体和值实体及其关系。现有的大多数方法将其分为两个独立的任务:语义实体识别(Semantic Entity Recognition, SER)和关系抽取(Relation Extraction, RE)。然而,简单地将SER和RE串联起来可能会导致严重的错误传播,并且在实际场景中无法处理多行实体等问题。为了解决这些问题,本文介绍了一种新颖的框架——PEneo(Pair Extraction new decoder option),该框架在一个统一的流水线中执行文档对提取,同时包含三个并行的子任务:行提取、行分组和实体链接。这种方法减轻了错误累积问题,并能够处理多行实体的情况。此外,为了更好地评估模型性能并促进未来在对提取领域的研究,我们引入了RFUND,这是常用的数据集FUNSD和XFUND的重新注释版本,使其更加准确并覆盖现实情况。在多个基准测试上的实验表明,PEneo结合各种骨干模型(如LiLT和LayoutLMv3)时显著优于之前的流水线,在RFUND-EN数据集上F1分数提高了19.89%至22.91%,展示了其有效性和通用性。代码和新的注释可在https://github.com/ZeningLin/PEneo 获取。
代码仓库
ZeningLin/PEneo
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| key-value-pair-extraction-on-rfund-en | PEneo (LayoutLMv2_base) | key-value pair F1: 71.97 |
| key-value-pair-extraction-on-rfund-en | PEneo (LayoutLMv3_base) | key-value pair F1: 79.27 |
| key-value-pair-extraction-on-rfund-en | PEneo (LiLT[EN-R]_base) | key-value pair F1: 74.22 |
| key-value-pair-extraction-on-rfund-en | PEneo (LiLT[InfoXLM]_base) | key-value pair F1: 74.29 |
| key-value-pair-extraction-on-rfund-en | PEneo (LayoutXLM_base) | key-value pair F1: 74.25 |
| key-value-pair-extraction-on-sibr | PEneo (LiLT[InfoXLM]_base) | key-value pair F1: 82.36 |
| key-value-pair-extraction-on-sibr | PEneo (LayoutLMv3_base_chinese) | key-value pair F1: 82.52 |
| key-value-pair-extraction-on-sibr | PEneo (LayoutXLM_base) | key-value pair F1: 82.23 |