4 个月前

TRUST:一种基于分割的Transformer实现的准确且端到端的表格结构识别器

TRUST:一种基于分割的Transformer实现的准确且端到端的表格结构识别器

摘要

表格结构识别是文档图像分析领域的一个重要组成部分。其难点在于需要同时解析每个单元格的物理坐标和逻辑索引。然而,现有的方法很难同时实现这两个目标,尤其是在表格分割线模糊或倾斜的情况下。本文提出了一种基于Transformer的准确且端到端的表格结构识别方法,称为TRUST(Transformer-based Row and Column Splitting and Table Grid Merging)。Transformer因其全局计算、完美的记忆能力和并行计算特性而适用于表格结构识别。通过引入创新的基于查询的分割模块(Query-based Splitting Module)和基于顶点的合并模块(Vertex-based Merging Module),我们将表格结构识别问题解耦为两个联合优化子任务:多方向表格行/列分割和表格网格合并。基于查询的分割模块通过Transformer网络从长依赖关系中学习强大的上下文信息,准确预测多方向的表格行/列分隔符,并据此获得表格的基本网格。基于顶点的合并模块能够聚合相邻基本网格之间的局部上下文信息,提供准确合并属于同一跨单元格的基本网格的能力。我们在包括PubTabNet和SynthTable在内的多个流行基准数据集上进行了实验,结果表明我们的方法达到了新的最先进水平。特别是,TRUST在PubTabNet上的运行速度达到10帧/秒(FPS),远远超过了之前的方法。

基准测试

基准方法指标
table-recognition-on-pubtabnetTRUST
TEDS (all samples): 96.2
TEDS-Struct: 97.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TRUST:一种基于分割的Transformer实现的准确且端到端的表格结构识别器 | 论文 | HyperAI超神经