
摘要
多模态学习的出现显著提升了文档人工智能的性能。如今,文档被视为包含文本和视觉信息的多模态实体,用于下游分析。然而,这一领域的研究通常侧重于文本方面,将视觉空间作为辅助信息。尽管一些研究探索了基于纯视觉的技术来理解文档图像,但这些方法在推理过程中仍需要OCR识别的文本作为输入,或者在学习过程中未能与文本对齐。因此,我们提出了一种专门设计的新颖图像-文本对齐技术,旨在利用文档图像中的文本信息来提高视觉任务的性能。我们的文档编码器模型DoPTA(Document Pre-trained Transformer with Alignment)通过这种技术训练,在多种文档图像理解任务中表现出色,且在推理过程中无需依赖OCR。结合辅助重建目标,DoPTA在使用显著较少的预训练计算资源的情况下,始终优于更大的模型。此外,DoPTA还在两个具有挑战性的文档视觉分析基准D4LA和FUNSD上取得了新的最佳结果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-image-classification-on-rvl-cdip | DoPTA | Accuracy: 94.12% Parameters: 85M |
| document-layout-analysis-on-d4la | DoPTA | mAP: 70.72 Model Parameters: 85M |
| document-layout-analysis-on-publaynet-val | DoPTA-HR | Figure: 0.970 List: 0.957 Overall: 0.949 Table: 0.977 Text: 0.944 Title: 0.895 |