4 个月前

LayoutLMv2:面向视觉丰富的文档理解的多模态预训练

LayoutLMv2:面向视觉丰富的文档理解的多模态预训练

摘要

文本和布局的预训练已经在多种视觉丰富的文档理解任务中证明了其有效性,这得益于其高效的模型架构以及大规模未标注扫描/数字生成文档的优势。我们提出了新的预训练任务下的LayoutLMv2架构,以在单一多模态框架中建模文本、布局和图像之间的交互。具体而言,通过采用双流多模态Transformer编码器,LayoutLMv2不仅使用现有的掩码视觉-语言建模任务,还引入了新的文本-图像对齐和文本-图像匹配任务,这些任务使其在预训练阶段更好地捕捉跨模态交互。同时,该模型还将空间感知自注意力机制整合到Transformer架构中,从而使模型能够全面理解不同文本块之间的相对位置关系。实验结果显示,LayoutLMv2大幅超越了LayoutLM,并在一系列下游视觉丰富的文档理解任务上取得了最新的最佳结果,包括FUNSD(0.7895 → 0.8420)、CORD(0.9493 → 0.9601)、SROIE(0.9524 → 0.9781)、Kleister-NDA(0.8340 → 0.8520)、RVL-CDIP(0.9443 → 0.9564)和DocVQA(0.7295 → 0.8672)。我们已将模型和代码公开发布于\url{https://aka.ms/layoutlmv2}。

基准测试

基准方法指标
document-image-classification-on-rvl-cdipLayoutLMv2LARGE
Accuracy: 95.64%
document-image-classification-on-rvl-cdipLayoutLMv2BASE
Accuracy: 95.25%
Parameters: 200M
key-information-extraction-on-cordLayoutLMv2BASE
F1: 94.95
key-information-extraction-on-cordLayoutLMv2LARGE
F1: 96.01
key-information-extraction-on-kleister-ndaLayoutLMv2BASE
F1: 83.3
key-information-extraction-on-kleister-ndaLayoutLMv2LARGE
F1: 85.2
key-information-extraction-on-sroieLayoutLMv2LARGE
F1: 96.61
key-information-extraction-on-sroieLayoutLMv2LARGE (Excluding OCR mismatch)
F1: 97.81
key-information-extraction-on-sroieLayoutLMv2BASE
F1: 96.25
key-value-pair-extraction-on-rfund-enLayoutLMv2_base
key-value pair F1: 49.06
relation-extraction-on-funsdLayoutLMv2 large
F1: 70.57
semantic-entity-labeling-on-funsdLayoutLMv2LARGE
F1: 84.2
semantic-entity-labeling-on-funsdLayoutLMv2BASE
F1: 82.76
visual-question-answering-on-docvqa-testLayoutLMv2LARGE
ANLS: 0.8672
visual-question-answering-on-docvqa-testLayoutLMv2BASE
ANLS: 0.7808

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LayoutLMv2:面向视觉丰富的文档理解的多模态预训练 | 论文 | HyperAI超神经