3 个月前

基于文本-图像-布局Transformer的文档理解全栈式飞跃

基于文本-图像-布局Transformer的文档理解全栈式飞跃

摘要

我们针对超越纯文本文档的自然语言理解这一挑战性问题,提出了一种名为TILT的神经网络架构。该架构能够同步学习文档的版面布局信息、视觉特征以及文本语义。与以往方法不同,我们采用一种具备统一处理多种自然语言相关任务能力的解码器。版面信息通过注意力偏置(attention bias)进行表示,并结合上下文感知的视觉信息进行补充;模型的核心部分为一个预训练的编码器-解码器Transformer架构。所提出的新型方法在从文档中提取信息以及回答需要理解版面结构的问题方面(如DocVQA、CORD、SROIE数据集),均取得了当前最优的性能表现。同时,该方法通过采用端到端的模型结构,显著简化了整体处理流程。

代码仓库

uakarsh/TiLT-Implementation
pytorch
GitHub 中提及

基准测试

基准方法指标
document-image-classification-on-rvl-cdipTILT-Base
Accuracy: 95.25%
document-image-classification-on-rvl-cdipTILT-Large
Accuracy: 95.52%
visual-question-answering-on-docvqa-testTILT-Large
ANLS: 0.8705
visual-question-answering-on-docvqa-testTILT-Base
ANLS: 0.8392
visual-question-answering-vqa-onTILT-Large
ANLS: 61.20

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于文本-图像-布局Transformer的文档理解全栈式飞跃 | 论文 | HyperAI超神经