4 个月前

LayoutLMv3: 统一文本和图像遮罩的文档人工智能预训练

LayoutLMv3: 统一文本和图像遮罩的文档人工智能预训练

摘要

自监督预训练技术在文档人工智能(Document AI)领域取得了显著进展。大多数多模态预训练模型使用掩码语言建模目标来学习文本模态的双向表示,但在图像模态的预训练目标上存在差异。这种差异增加了多模态表示学习的难度。本文中,我们提出了LayoutLMv3,通过统一的文本和图像掩码方法对多模态Transformer进行预训练,以解决这一问题。此外,LayoutLMv3还通过一个词-块对齐目标进行预训练,该目标通过预测某个文本词对应的图像块是否被掩码来学习跨模态对齐。简单的统一架构和训练目标使得LayoutLMv3成为适用于以文本为中心和以图像为中心的文档人工智能任务的通用预训练模型。实验结果表明,LayoutLMv3不仅在以文本为中心的任务中(如表单理解、收据理解和文档视觉问答)达到了最先进的性能,而且在以图像为中心的任务中(如文档图像分类和文档布局分析)也表现出色。代码和模型已在 \url{https://aka.ms/layoutlmv3} 公开发布。

基准测试

基准方法指标
document-ai-on-ephoieLayoutLMv3
Average F1: 99.21
document-image-classification-on-rvl-cdipLayoutLMV3Large
Accuracy: 95.93%
Parameters: 368M
document-image-classification-on-rvl-cdipLayoutLMv3BASE
Accuracy: 95.44%
Parameters: 133M
document-layout-analysis-on-publaynet-valLayoutLMv3-B
Figure: 0.970
List: 0.955
Overall: 0.951
Table: 0.979
Text: 0.945
Title: 0.906
key-information-extraction-on-cordLayoutLMv3 Large
F1: 97.46
key-information-extraction-on-ephoieLayoutLMv3
Average F1: 99.21
key-value-pair-extraction-on-rfund-enLayoutLMv3
key-value pair F1: 57.66
key-value-pair-extraction-on-sibrLayoutLMv3_base_chinese
key-value pair F1: 73.51
named-entity-recognition-ner-on-cord-rLayoutLMv3
F1: 82.72
named-entity-recognition-ner-on-funsd-rLayoutLMv3
F1: 78.77
relation-extraction-on-funsdLayoutLMv3 large
F1: 80.35
semantic-entity-labeling-on-funsdLayoutLMv3 Large
F1: 92.08

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LayoutLMv3: 统一文本和图像遮罩的文档人工智能预训练 | 论文 | HyperAI超神经