4 个月前

DoPTA:利用补丁文本对齐改进文档布局分析

DoPTA:利用补丁文本对齐改进文档布局分析

摘要

多模态学习的出现显著提升了文档人工智能的性能。如今,文档被视为包含文本和视觉信息的多模态实体,用于下游分析。然而,这一领域的研究通常侧重于文本方面,将视觉空间作为辅助信息。尽管一些研究探索了基于纯视觉的技术来理解文档图像,但这些方法在推理过程中仍需要OCR识别的文本作为输入,或者在学习过程中未能与文本对齐。因此,我们提出了一种专门设计的新颖图像-文本对齐技术,旨在利用文档图像中的文本信息来提高视觉任务的性能。我们的文档编码器模型DoPTA(Document Pre-trained Transformer with Alignment)通过这种技术训练,在多种文档图像理解任务中表现出色,且在推理过程中无需依赖OCR。结合辅助重建目标,DoPTA在使用显著较少的预训练计算资源的情况下,始终优于更大的模型。此外,DoPTA还在两个具有挑战性的文档视觉分析基准D4LA和FUNSD上取得了新的最佳结果。

基准测试

基准方法指标
document-image-classification-on-rvl-cdipDoPTA
Accuracy: 94.12%
Parameters: 85M
document-layout-analysis-on-d4laDoPTA
mAP: 70.72
Model Parameters: 85M
document-layout-analysis-on-publaynet-valDoPTA-HR
Figure: 0.970
List: 0.957
Overall: 0.949
Table: 0.977
Text: 0.944
Title: 0.895

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DoPTA:利用补丁文本对齐改进文档布局分析 | 论文 | HyperAI超神经