3 个月前

文档理解的统一预训练框架

文档理解的统一预训练框架

摘要

文档智能技术能够自动提取文档中的信息,并支持多种业务应用场景。近年来,基于大规模无标注文档数据集的自监督学习方法为降低人工标注成本开辟了极具前景的新方向,通过自监督目标训练模型实现高效学习。然而,目前大多数现有的文档预训练方法仍以语言模态为主导。为此,我们提出了UDoc——一种面向文档理解的新型统一预训练框架。UDoc旨在支持绝大多数文档理解任务,通过将Transformer架构扩展为接收多模态嵌入作为输入,使每个输入单元融合了来自文档图像语义区域的文本词元与视觉特征。UDoc的一个关键特性在于,其通过引入三种自监督损失函数,学习通用的表示能力,从而促使模型能够建模句子语义、捕捉语义相似性并实现跨模态对齐。大量实证分析表明,该预训练过程能够学习到更优的联合表示,显著提升下游任务的性能表现。

基准测试

基准方法指标
document-layout-analysis-on-publaynet-valUDoc
Figure: 0.964
List: 0.937
Overall: 0.939
Table: 0.973
Text: 0.939
Title: 0.885

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
文档理解的统一预训练框架 | 论文 | HyperAI超神经