3 个月前

VSR:一种融合视觉、语义与关系的文档版面分析统一框架

VSR:一种融合视觉、语义与关系的文档版面分析统一框架

摘要

文档版面分析对于理解文档结构至关重要。在该任务中,文档的视觉特征与语义信息,以及版面组件之间的相互关系,共同促进了对文档结构的理解。尽管已有大量研究致力于利用上述信息,但现有方法仍存在性能不足的问题。基于自然语言处理(NLP)的方法将版面分析建模为序列标注任务,但在建模版面结构方面能力有限;基于计算机视觉(CV)的方法则将其视为检测或分割任务,但普遍存在模态融合效率低下以及缺乏对版面组件间关系建模的缺陷。为解决上述问题,本文提出一种统一的框架VSR(Vision-Semantics-Relation),用于文档版面分析,该框架融合了视觉、语义与组件间关系信息。VSR能够兼容基于NLP与基于CV的多种方法。具体而言,首先通过文档图像引入视觉信息,通过文本嵌入图(text embedding maps)引入语义信息;随后,采用双流网络分别提取具有模态特性的视觉与语义特征,并通过自适应融合机制充分挖掘二者之间的互补信息;最后,在给定候选组件的基础上,引入基于图神经网络(Graph Neural Network, GNN)的关系建模模块,以捕捉组件间的复杂关系,并输出最终的版面分析结果。在三个主流基准数据集上的实验结果表明,VSR显著优于现有模型。相关代码即将开源。

代码仓库

基准测试

基准方法指标
document-layout-analysis-on-publaynet-valVSR
Figure: 0.964
List: 0.947
Overall: 0.957
Table: 0.974
Text: 0.967
Title: 0.931

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VSR:一种融合视觉、语义与关系的文档版面分析统一框架 | 论文 | HyperAI超神经