4 个月前

分割、嵌入与合并:一种精确的表格结构识别方法

分割、嵌入与合并:一种精确的表格结构识别方法

摘要

表格结构识别是使机器理解表格的关键组成部分,其主要任务是识别表格的内部结构。然而,由于表格结构和样式的复杂性和多样性,将表格数据解析为机器易于理解的结构化格式非常困难,尤其是对于复杂的表格。在本文中,我们介绍了一种名为分割、嵌入和合并(Split, Embed and Merge, SEM)的高精度表格结构识别器。我们的模型以表格图像作为输入,能够准确识别简单或复杂表格的结构。SEM 主要由三个部分组成:分割器、嵌入器和合并器。在第一阶段,我们应用分割器预测表格行(列)分隔符的潜在区域,并获得表格的精细网格结构。第二阶段,在充分考虑表格中的文本信息后,我们将每个表格网格从视觉和语言模态输出的特征进行融合。此外,通过添加额外的语义特征,我们在实验中实现了更高的精度。最后,我们以自回归的方式处理这些基本表格网格的合并过程。合并结果通过注意力机制学习得到。在我们的实验中,SEM 在 SciTSR 数据集上达到了平均 97.11% 的 F1 值,显著优于其他方法。在 ICDAR 2021 科学文献解析竞赛的任务 B 中,我们在复杂表格项目中获得了第一名,在所有表格项目中获得了第三名。在其他公开可用数据集上的广泛实验也表明,我们的模型达到了最先进的水平。

基准测试

基准方法指标
table-recognition-on-pubtabnetSEM
TEDS (all samples): 93.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
分割、嵌入与合并:一种精确的表格结构识别方法 | 论文 | HyperAI超神经