4 个月前

神经协同图机用于表格结构识别

神经协同图机用于表格结构识别

摘要

近日,借助深度图模型的帮助,表格结构识别取得了显著进展。大多数方法利用表格元素的单一视觉线索,或者通过早期融合简单地将视觉线索与其他模态结合来推断其图关系。然而,无论是早期融合还是基于多种模态的单独推理,都无法适用于具有高度多样性的所有类型的表格结构。相反,对于不同的表格情况,不同模态需要以不同的模式相互协作。在学术界,表格结构推理中模态内-模态间交互的重要性尚未得到充分探索。本文将其定义为异构表格结构识别(Hetero-TSR)问题。为了填补这一空白,我们提出了一种新型的神经协同图机(NCGM),该模型配备了堆叠的协同模块,以分层的方式交替提取模态内上下文并建模范态间交互。该方法能够更稳健地表示表格元素的模态内-模态间关系,从而显著提高识别性能。我们还展示了所提出的NCGM可以根据模态内线索的上下文调节不同模态的协同模式,这对于处理多样化的表格情况至关重要。基准测试上的实验结果表明,我们的NCGM在各种挑战性场景下均达到了最先进的性能,并且大幅超越了其他当代方法。

基准测试

基准方法指标
table-recognition-on-pubtabnetNCGM
TEDS (all samples): 95.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
神经协同图机用于表格结构识别 | 论文 | HyperAI超神经