4 个月前

多单元解码器及相互学习在表格结构和字符识别中的应用

多单元解码器及相互学习在表格结构和字符识别中的应用

摘要

从科学论文和财务报告等文档中提取表格内容并将其转换为大型语言模型可处理的格式,是知识信息处理中的一个重要任务。端到端方法不仅识别表格结构,还识别单元格内容,其性能已达到与使用外部字符识别系统的最先进模型相当的水平,并且具有进一步改进的潜力。此外,通过引入局部注意力机制,这些模型现在可以识别包含数百个单元格的长表格。然而,这些模型仅在一个方向上(从表头到表尾)识别表格结构,并且每个单元格的内容识别是独立进行的,因此无法从相邻单元格中获取有用的信息。在本文中,我们提出了一种多单元格内容解码器和双向互学习机制来改进端到端方法。我们在两个大规模数据集上验证了该方法的有效性,实验结果表明,即使对于包含大量单元格的长表格,该方法的性能也与最先进模型相当。

代码仓库

JG1VPP/MuTabNet
官方
pytorch

基准测试

基准方法指标
table-recognition-on-pubtabnetMuTabNet
TEDS (all samples): 96.87

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多单元解码器及相互学习在表格结构和字符识别中的应用 | 论文 | HyperAI超神经