
摘要
我们针对超越纯文本文档的自然语言理解这一挑战性问题,提出了一种名为TILT的神经网络架构。该架构能够同步学习文档的版面布局信息、视觉特征以及文本语义。与以往方法不同,我们采用一种具备统一处理多种自然语言相关任务能力的解码器。版面信息通过注意力偏置(attention bias)进行表示,并结合上下文感知的视觉信息进行补充;模型的核心部分为一个预训练的编码器-解码器Transformer架构。所提出的新型方法在从文档中提取信息以及回答需要理解版面结构的问题方面(如DocVQA、CORD、SROIE数据集),均取得了当前最优的性能表现。同时,该方法通过采用端到端的模型结构,显著简化了整体处理流程。
代码仓库
uakarsh/TiLT-Implementation
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-image-classification-on-rvl-cdip | TILT-Base | Accuracy: 95.25% |
| document-image-classification-on-rvl-cdip | TILT-Large | Accuracy: 95.52% |
| visual-question-answering-on-docvqa-test | TILT-Large | ANLS: 0.8705 |
| visual-question-answering-on-docvqa-test | TILT-Base | ANLS: 0.8392 |
| visual-question-answering-vqa-on | TILT-Large | ANLS: 61.20 |