
摘要
近期在多模态预训练模型方面的进展显著提升了从视觉丰富文档(VrDs)中提取信息的能力,其中命名实体识别(NER)被视作一个序列标注任务,即预测每个标记的BIO实体标签,遵循典型的自然语言处理(NLP)设置。然而,BIO标注方案依赖于模型输入的正确顺序,而在现实世界中的扫描VrDs上进行NER时,这一顺序无法保证,因为文本是由OCR系统识别并排列的。这种阅读顺序问题阻碍了BIO标注方案对实体的准确标记,使得序列标注方法无法正确预测命名实体。为了解决阅读顺序问题,我们引入了Token Path Prediction(TPP),这是一种简单的预测头,用于预测文档中作为标记序列出现的实体提及。与传统的标记分类不同,TPP将文档布局建模为一个完整的有向图,并在图中预测标记路径作为实体。为了更好地评估VrD-NER系统,我们还提出了两个修订后的基准数据集,这些数据集可以反映现实场景中的扫描文档NER任务。实验结果证明了我们方法的有效性,并表明其在各种文档信息提取任务中具有成为通用解决方案的潜力。
代码仓库
WinterShiver/Token-Path-Prediction
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| entity-linking-on-funsd | TPP (LayoutMask) | F1: 79.20 |
| key-information-extraction-on-cord | TPP (LayoutMask) | F1: 96.92 |
| key-value-pair-extraction-on-rfund-en | TPP (LayoutLMv3_base) | key-value pair F1: 50.27 |
| named-entity-recognition-ner-on-cord-r | TPP (LayoutLMv3) | F1: 91.85 |
| named-entity-recognition-ner-on-cord-r | TPP (LayoutMask) | F1: 89.34 |
| named-entity-recognition-ner-on-funsd-r | TPP (LayoutLMv3) | F1: 80.40 |
| named-entity-recognition-ner-on-funsd-r | TPP (LayoutMask) | F1: 78.19 |
| reading-order-detection-on-readingbank | TPP (LayoutMask) | Average Page-level BLEU: 98.16 Average Relative Distance (ARD): 0.37 |
| reading-order-detection-on-roor | TPP (LayoutLMv3-base) | Segment-level F1: 42.96 |
| relation-extraction-on-funsd | TPP (LayoutMask) | F1: 79.20 |
| semantic-entity-labeling-on-funsd | TPP (LayoutMask) | F1: 85.16 |