3 个月前

LAMBERT:面向信息抽取的布局感知(语言)建模

LAMBERT:面向信息抽取的布局感知(语言)建模

摘要

我们提出一种新颖且简洁的方法,用于解决文档理解中非平凡版式布局对局部语义产生影响的问题。为此,我们对Transformer编码器架构进行了改进,使其能够利用光学字符识别(OCR)系统提取的版式特征,而无需从零开始重新学习语言语义。我们仅通过在模型输入中加入词元(token)边界框的坐标信息来实现这一目标,从而避免使用原始图像数据。这一设计使得模型具备版式感知能力,随后可针对下游任务进行微调。我们在四个公开可用的数据集(Kleister NDA、Kleister Charity、SROIE 和 CORD)上对模型进行了端到端信息抽取任务的评估。实验结果表明,该模型在视觉信息丰富的文档数据集上表现优异,同时在版式较为简单的文档上也优于基线模型RoBERTa(NDA数据集的F₁分数从78.50提升至80.42)。在SROIE数据集的关键信息抽取任务中,我们的方法在公开排行榜上排名第一,将当前最优(SOTA)的F₁分数由97.81提升至98.17。

代码仓库

applicaai/lambert
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
key-information-extraction-on-kleister-ndaLAMBERT (75M)
F1: 80.42

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LAMBERT:面向信息抽取的布局感知(语言)建模 | 论文 | HyperAI超神经