XuYang ; XuYiheng ; LvTengchao ; CuiLei ; WeiFuru ; WangGuoxin ; LuYijuan ; FlorencioDinei ; ZhangCha ; CheWanxiang ; ZhangMin ; ZhouLidong

摘要
文本和布局的预训练已经在多种视觉丰富的文档理解任务中证明了其有效性,这得益于其高效的模型架构以及大规模未标注扫描/数字生成文档的优势。我们提出了新的预训练任务下的LayoutLMv2架构,以在单一多模态框架中建模文本、布局和图像之间的交互。具体而言,通过采用双流多模态Transformer编码器,LayoutLMv2不仅使用现有的掩码视觉-语言建模任务,还引入了新的文本-图像对齐和文本-图像匹配任务,这些任务使其在预训练阶段更好地捕捉跨模态交互。同时,该模型还将空间感知自注意力机制整合到Transformer架构中,从而使模型能够全面理解不同文本块之间的相对位置关系。实验结果显示,LayoutLMv2大幅超越了LayoutLM,并在一系列下游视觉丰富的文档理解任务上取得了最新的最佳结果,包括FUNSD(0.7895 → 0.8420)、CORD(0.9493 → 0.9601)、SROIE(0.9524 → 0.9781)、Kleister-NDA(0.8340 → 0.8520)、RVL-CDIP(0.9443 → 0.9564)和DocVQA(0.7295 → 0.8672)。我们已将模型和代码公开发布于\url{https://aka.ms/layoutlmv2}。
代码仓库
MS-P3/code3/tree/main/layoutlmv2
mindspore
facebookresearch/data2vec_vision
pytorch
GitHub 中提及
pwc-1/Paper-9/tree/main/layoutlmv2
mindspore
huggingface/transformers
pytorch
GitHub 中提及
PaddlePaddle/PaddleOCR
paddle
microsoft/unilm
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-image-classification-on-rvl-cdip | LayoutLMv2LARGE | Accuracy: 95.64% |
| document-image-classification-on-rvl-cdip | LayoutLMv2BASE | Accuracy: 95.25% Parameters: 200M |
| key-information-extraction-on-cord | LayoutLMv2BASE | F1: 94.95 |
| key-information-extraction-on-cord | LayoutLMv2LARGE | F1: 96.01 |
| key-information-extraction-on-kleister-nda | LayoutLMv2BASE | F1: 83.3 |
| key-information-extraction-on-kleister-nda | LayoutLMv2LARGE | F1: 85.2 |
| key-information-extraction-on-sroie | LayoutLMv2LARGE | F1: 96.61 |
| key-information-extraction-on-sroie | LayoutLMv2LARGE (Excluding OCR mismatch) | F1: 97.81 |
| key-information-extraction-on-sroie | LayoutLMv2BASE | F1: 96.25 |
| key-value-pair-extraction-on-rfund-en | LayoutLMv2_base | key-value pair F1: 49.06 |
| relation-extraction-on-funsd | LayoutLMv2 large | F1: 70.57 |
| semantic-entity-labeling-on-funsd | LayoutLMv2LARGE | F1: 84.2 |
| semantic-entity-labeling-on-funsd | LayoutLMv2BASE | F1: 82.76 |
| visual-question-answering-on-docvqa-test | LayoutLMv2LARGE | ANLS: 0.8672 |
| visual-question-answering-on-docvqa-test | LayoutLMv2BASE | ANLS: 0.7808 |