HyperAIHyperAI

Command Palette

Search for a command to run...

基于文本-图像-布局Transformer的文档理解全栈式飞跃

Rafał Powalski Łukasz Borchmann Dawid Jurkiewicz Tomasz Dwojak Michał Pietruszka Gabriela Pałka

摘要

我们针对超越纯文本文档的自然语言理解这一挑战性问题,提出了一种名为TILT的神经网络架构。该架构能够同步学习文档的版面布局信息、视觉特征以及文本语义。与以往方法不同,我们采用一种具备统一处理多种自然语言相关任务能力的解码器。版面信息通过注意力偏置(attention bias)进行表示,并结合上下文感知的视觉信息进行补充;模型的核心部分为一个预训练的编码器-解码器Transformer架构。所提出的新型方法在从文档中提取信息以及回答需要理解版面结构的问题方面(如DocVQA、CORD、SROIE数据集),均取得了当前最优的性能表现。同时,该方法通过采用端到端的模型结构,显著简化了整体处理流程。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供