8 个月前

多任务学习

自然语言处理

计算机视觉

Nam Tuan Ly Atsuhiro Takasu

摘要

基于图像的表格识别是一项具有挑战性的任务，原因在于表格样式的多样性和表格结构的复杂性。大多数先前的方法侧重于非端到端的方法，将问题分为两个独立的子问题：表格结构识别和单元格内容识别，然后分别使用两个独立的系统来解决每个子问题。本文提出了一种用于基于图像的表格识别的端到端多任务学习模型。该模型由一个共享编码器、一个共享解码器和三个独立的解码器组成，这三个解码器分别用于学习表格识别的三个子任务：表格结构识别、单元格检测和单元格内容识别。整个系统可以轻松地以端到端的方式进行训练和推理。在实验中，我们在两个大规模数据集上评估了所提模型的性能：FinTabNet 和 PubTabNet。实验结果表明，所提模型在所有基准数据集上的表现均优于现有最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

自然语言处理

计算机视觉

Nam Tuan Ly Atsuhiro Takasu

摘要

基于图像的表格识别是一项具有挑战性的任务，原因在于表格样式的多样性和表格结构的复杂性。大多数先前的方法侧重于非端到端的方法，将问题分为两个独立的子问题：表格结构识别和单元格内容识别，然后分别使用两个独立的系统来解决每个子问题。本文提出了一种用于基于图像的表格识别的端到端多任务学习模型。该模型由一个共享编码器、一个共享解码器和三个独立的解码器组成，这三个解码器分别用于学习表格识别的三个子任务：表格结构识别、单元格检测和单元格内容识别。整个系统可以轻松地以端到端的方式进行训练和推理。在实验中，我们在两个大规模数据集上评估了所提模型的性能：FinTabNet 和 PubTabNet。实验结果表明，所提模型在所有基准数据集上的表现均优于现有最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供