
摘要
在文档智能中,建模和利用视觉丰富文档(VrDs)中的布局阅读顺序至关重要,因为它能够捕捉文档内的丰富结构语义。以往的研究通常将布局阅读顺序表示为布局元素的排列,即包含所有布局元素的序列。然而,我们认为这种表示方法无法充分传达布局中的完整阅读顺序信息,这可能会导致下游VrD任务性能下降。为了解决这一问题,我们提出将布局阅读顺序建模为布局元素集上的排序关系,这种方法具有足够的表达能力来传达完整的阅读顺序信息。为了对改进后的阅读顺序预测(ROP)方法进行实证评估,我们建立了一个全面的基准数据集,该数据集包括作为布局元素间关系的阅读顺序注释,并提出了一种基于关系提取的方法,其性能优于以往的方法。此外,为了突出引入改进后的布局阅读顺序形式的实际优势,我们设计了一种增强管道,通过引入额外的阅读顺序关系输入来提升模型在任意VrD任务上的性能。综合实验结果表明,该管道总体上有利于下游VrD任务:(1)利用阅读顺序关系信息后,增强的下游模型在目标数据集的两个任务设置中均达到了最先进水平;(2)利用由所提出的ROP模型生成的伪阅读顺序信息后,在没有针对特定优化的情况下,增强模型在三个模型和八个跨域VrD-IE/QA任务设置中的性能均有提升。
代码仓库
chongzhangFDU/ROOR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| entity-linking-on-ec-funsd | RORE (LayoutLMv3-base) | F1: 73.64 |
| entity-linking-on-ec-funsd | RORE (GeoLayoutLM) | F1: 87.42 |
| entity-linking-on-ec-funsd | RORE (LayoutLMv3-large) | F1: 79.33 |
| entity-linking-on-funsd | RORE (GeoLayoutLM) | F1: 88.46 |
| key-information-extraction-on-cord | RORE (GeoLayoutLM) | F1: 98.52 |
| key-information-extraction-on-sroie | RORE (GeoLayoutLM) | F1: 96.97 |
| reading-order-detection-on-roor | LayoutLMv3-GlobalPointer (base) | Segment-level F1: 68.60 |
| reading-order-detection-on-roor | LayoutLMv3-GlobalPointer (large) | Segment-level F1: 82.38 |
| relation-extraction-on-funsd | RORE (GeoLayoutLM) | F1: 88.46 |
| semantic-entity-labeling-on-ec-funsd | RORE (GeoLayoutLM) | F1: 84.34 |
| semantic-entity-labeling-on-ec-funsd | RORE (LayoutLMv3-large) | F1: 84.53 |
| semantic-entity-labeling-on-ec-funsd | RORE (LayoutLMv3-base) | F1: 82.80 |
| semantic-entity-labeling-on-funsd | RORE (GeoLayoutLM) | F1: 91.84 |