8 个月前

多任务学习

自然语言处理

Zening Lin Jiapeng Wang Teng Li Wenhui Liao Dayi Huang Longfei Xiong Lianwen Jin

摘要

文档对提取旨在从视觉丰富的文档中识别关键实体和值实体及其关系。现有的大多数方法将其分为两个独立的任务：语义实体识别（Semantic Entity Recognition, SER）和关系抽取（Relation Extraction, RE）。然而，简单地将SER和RE串联起来可能会导致严重的错误传播，并且在实际场景中无法处理多行实体等问题。为了解决这些问题，本文介绍了一种新颖的框架——PEneo（Pair Extraction new decoder option），该框架在一个统一的流水线中执行文档对提取，同时包含三个并行的子任务：行提取、行分组和实体链接。这种方法减轻了错误累积问题，并能够处理多行实体的情况。此外，为了更好地评估模型性能并促进未来在对提取领域的研究，我们引入了RFUND，这是常用的数据集FUNSD和XFUND的重新注释版本，使其更加准确并覆盖现实情况。在多个基准测试上的实验表明，PEneo结合各种骨干模型（如LiLT和LayoutLMv3）时显著优于之前的流水线，在RFUND-EN数据集上F1分数提高了19.89%至22.91%，展示了其有效性和通用性。代码和新的注释可在https://github.com/ZeningLin/PEneo 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

自然语言处理

Zening Lin Jiapeng Wang Teng Li Wenhui Liao Dayi Huang Longfei Xiong Lianwen Jin

摘要

文档对提取旨在从视觉丰富的文档中识别关键实体和值实体及其关系。现有的大多数方法将其分为两个独立的任务：语义实体识别（Semantic Entity Recognition, SER）和关系抽取（Relation Extraction, RE）。然而，简单地将SER和RE串联起来可能会导致严重的错误传播，并且在实际场景中无法处理多行实体等问题。为了解决这些问题，本文介绍了一种新颖的框架——PEneo（Pair Extraction new decoder option），该框架在一个统一的流水线中执行文档对提取，同时包含三个并行的子任务：行提取、行分组和实体链接。这种方法减轻了错误累积问题，并能够处理多行实体的情况。此外，为了更好地评估模型性能并促进未来在对提取领域的研究，我们引入了RFUND，这是常用的数据集FUNSD和XFUND的重新注释版本，使其更加准确并覆盖现实情况。在多个基准测试上的实验表明，PEneo结合各种骨干模型（如LiLT和LayoutLMv3）时显著优于之前的流水线，在RFUND-EN数据集上F1分数提高了19.89%至22.91%，展示了其有效性和通用性。代码和新的注释可在https://github.com/ZeningLin/PEneo 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供