
摘要
结构化文档理解近年来受到了广泛关注并取得了显著进展,这主要归功于其在智能文档处理中的关键作用。然而,大多数现有的相关模型只能处理预训练数据集中包含的特定语言(通常是英语)的文档数据,这种局限性极大。为了解决这一问题,我们提出了一种简单而有效的无语言依赖布局变换器(Language-independent Layout Transformer, LiLT),用于结构化文档理解。LiLT 可以在单一语言的结构化文档上进行预训练,然后直接使用现成的单语或多语预训练文本模型对其他语言进行微调。实验结果表明,在八种不同语言上,LiLT 在多种广泛使用的下游基准测试中表现出色甚至优于现有方法,从而实现了从文档布局结构预训练中获得无语言依赖的好处。代码和模型已在 https://github.com/jpWang/LiLT 公开发布。
代码仓库
MS-P3/code3/tree/main/lilt
mindspore
huggingface/transformers
pytorch
GitHub 中提及
pwc-1/Paper-9/tree/main/lilt
mindspore
jpwang/lilt
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-image-classification-on-rvl-cdip | LiLT[EN-R]BASE | Accuracy: 95.68% |
| key-information-extraction-on-cord | LILT | F1: 96.07 |
| key-value-pair-extraction-on-rfund-en | LiLT ([InfoXLM]_base) | key-value pair F1: 52.18 |
| key-value-pair-extraction-on-rfund-en | LiLT ([EN-R]_base) | key-value pair F1: 54.33 |
| key-value-pair-extraction-on-sibr | LiLT ([InfoXLM]_base) | key-value pair F1: 72.76 |
| semantic-entity-labeling-on-funsd | LILT | F1: 88.41 |