3 个月前

BROS:一种专注于文本与版式信息的预训练语言模型,用于从文档中更高效地提取关键信息

BROS:一种专注于文本与版式信息的预训练语言模型,用于从文档中更高效地提取关键信息

摘要

从文档图像中进行关键信息提取(Key Information Extraction, KIE)需要理解文本在二维(2D)空间中的上下文与空间语义。近年来,许多研究致力于通过构建预训练语言模型,将文档图像中的视觉特征与文本及其布局信息相结合,以解决该任务。然而,本文另辟蹊径,回归问题本质:实现文本与布局信息的有效融合。为此,我们提出一种名为BROS(BERT Relying On Spatiality)的预训练语言模型,该模型能够编码文本在二维空间中的相对位置,并采用区域掩码(area-masking)策略,从大量未标注文档中进行学习。通过这一针对二维空间文本理解优化的训练机制,BROS在四个主流KIE基准测试(FUNSD、SROIE*、CORD和SciTSR)上表现出与现有方法相当甚至更优的性能,且无需依赖任何视觉特征。此外,本文还揭示了KIE任务中的两个现实挑战:(1)降低错误文本排序带来的误差;(2)在下游样本较少的情况下实现高效学习,并实证验证了BROS相较于先前方法的显著优势。相关代码已开源,地址为:https://github.com/clovaai/bros。

代码仓库

clovaai/bros
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
relation-extraction-on-funsdBROS
F1: 77.01

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BROS:一种专注于文本与版式信息的预训练语言模型,用于从文档中更高效地提取关键信息 | 论文 | HyperAI超神经