4 个月前

LayoutMask:增强多模态预训练中的文本布局交互以提升文档理解能力

LayoutMask:增强多模态预训练中的文本布局交互以提升文档理解能力

摘要

视觉丰富的文档理解(VrDU)近年来吸引了大量研究关注。基于Transformer架构的预训练模型在大量文档图像上取得了显著的性能提升。主要挑战在于如何在一个统一的模型中融合文档的不同模态(文本、布局和图像),并设计不同的预训练任务。本文专注于改进文本与布局之间的交互,并提出了一种新的多模态预训练模型——LayoutMask。LayoutMask 使用局部一维位置而非全局一维位置作为布局输入,并具有两个预训练目标:(1)掩码语言建模:通过两种新颖的掩码策略预测被掩码的标记;(2)掩码位置建模:预测被掩码的二维位置以提高布局表示学习。LayoutMask 可以增强统一模型中文本和布局模态之间的交互,并为下游任务生成自适应且鲁棒的多模态表示。实验结果表明,所提出的 方法在多种VrDU问题上均能达到最先进的水平,包括表单理解、收据理解和文档图像分类。

基准测试

基准方法指标
key-information-extraction-on-cordLayoutMask (base)
F1: 96.99
key-information-extraction-on-cordLayoutMask (large)
F1: 97.19
named-entity-recognition-ner-on-cord-rLayoutMask
F1: 81.84
named-entity-recognition-ner-on-funsd-rLayoutMask
F1: 77.10
semantic-entity-labeling-on-funsdLayoutMask (large)
F1: 93.20
semantic-entity-labeling-on-funsdLayoutMask (base)
F1: 92.91

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LayoutMask:增强多模态预训练中的文本布局交互以提升文档理解能力 | 论文 | HyperAI超神经