4 个月前

揭示预训练文本和布局模型在现实世界视觉丰富文档信息提取中的不足

揭示预训练文本和布局模型在现实世界视觉丰富文档信息提取中的不足

摘要

最近开发的预训练文本和布局模型(PTLMs)在视觉丰富文档(VrDs)的多个信息提取任务中表现出显著的成功。然而,尽管在基准测试中取得了极高的性能,这些模型在实际应用中的表现却未能达到预期。鉴于这一问题,我们对现有的评估流程进行了调查,揭示了以下两个主要问题:(1) 基准数据集中的注释不足导致任务输入和标签之间出现虚假相关性,从而导致对模型性能的过度乐观估计。(2) 评估仅依赖于基准测试的性能,不足以全面探索方法在现实场景中的能力。这些问题阻碍了现有评估流程真实反映方法的实际性能,误导了方法优化的设计选择。在这项工作中,我们引入了EC-FUNSD,这是一个专门用于评估视觉丰富文档信息提取的实体中心数据集。该数据集包含多样的布局和高质量的注释。此外,该数据集解耦了FUNSD块级注释中错误关联的段落和实体注释。利用所提出的数据集,我们从多个方面评估了PTLMs在实际信息提取任务中的能力,包括其绝对性能、泛化能力、鲁棒性和公平性。结果表明,现有的PTLMs在实际信息提取场景中的表现并不如预期那样出色。我们希望本研究能够激发对PTLM发展方向的反思。

代码仓库

chongzhangFDU/ROOR
官方
pytorch

基准测试

基准方法指标
entity-linking-on-ec-funsdLayoutLMv3 (base)
F1: 67.47
entity-linking-on-ec-funsdLayoutLMv3 (large)
F1: 78.14
entity-linking-on-ec-funsdGeoLayoutLM
F1: 86.18
semantic-entity-labeling-on-ec-funsdGeoLayoutLM
F1: 83.62
semantic-entity-labeling-on-ec-funsdLayoutLMv3 (large)
F1: 83.88
semantic-entity-labeling-on-ec-funsdLayoutLMv3 (base)
F1: 82.30

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
揭示预训练文本和布局模型在现实世界视觉丰富文档信息提取中的不足 | 论文 | HyperAI超神经