4 个月前

阅读顺序很重要:通过令牌路径预测从视觉丰富文档中提取信息

阅读顺序很重要:通过令牌路径预测从视觉丰富文档中提取信息

摘要

近期在多模态预训练模型方面的进展显著提升了从视觉丰富文档(VrDs)中提取信息的能力,其中命名实体识别(NER)被视作一个序列标注任务,即预测每个标记的BIO实体标签,遵循典型的自然语言处理(NLP)设置。然而,BIO标注方案依赖于模型输入的正确顺序,而在现实世界中的扫描VrDs上进行NER时,这一顺序无法保证,因为文本是由OCR系统识别并排列的。这种阅读顺序问题阻碍了BIO标注方案对实体的准确标记,使得序列标注方法无法正确预测命名实体。为了解决阅读顺序问题,我们引入了Token Path Prediction(TPP),这是一种简单的预测头,用于预测文档中作为标记序列出现的实体提及。与传统的标记分类不同,TPP将文档布局建模为一个完整的有向图,并在图中预测标记路径作为实体。为了更好地评估VrD-NER系统,我们还提出了两个修订后的基准数据集,这些数据集可以反映现实场景中的扫描文档NER任务。实验结果证明了我们方法的有效性,并表明其在各种文档信息提取任务中具有成为通用解决方案的潜力。

代码仓库

基准测试

基准方法指标
entity-linking-on-funsdTPP (LayoutMask)
F1: 79.20
key-information-extraction-on-cordTPP (LayoutMask)
F1: 96.92
key-value-pair-extraction-on-rfund-enTPP (LayoutLMv3_base)
key-value pair F1: 50.27
named-entity-recognition-ner-on-cord-rTPP (LayoutLMv3)
F1: 91.85
named-entity-recognition-ner-on-cord-rTPP (LayoutMask)
F1: 89.34
named-entity-recognition-ner-on-funsd-rTPP (LayoutLMv3)
F1: 80.40
named-entity-recognition-ner-on-funsd-rTPP (LayoutMask)
F1: 78.19
reading-order-detection-on-readingbankTPP (LayoutMask)
Average Page-level BLEU: 98.16
Average Relative Distance (ARD): 0.37
reading-order-detection-on-roorTPP (LayoutLMv3-base)
Segment-level F1: 42.96
relation-extraction-on-funsdTPP (LayoutMask)
F1: 79.20
semantic-entity-labeling-on-funsdTPP (LayoutMask)
F1: 85.16

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
阅读顺序很重要:通过令牌路径预测从视觉丰富文档中提取信息 | 论文 | HyperAI超神经