
摘要
文档智能技术能够自动提取文档中的信息,并支持多种业务应用场景。近年来,基于大规模无标注文档数据集的自监督学习方法为降低人工标注成本开辟了极具前景的新方向,通过自监督目标训练模型实现高效学习。然而,目前大多数现有的文档预训练方法仍以语言模态为主导。为此,我们提出了UDoc——一种面向文档理解的新型统一预训练框架。UDoc旨在支持绝大多数文档理解任务,通过将Transformer架构扩展为接收多模态嵌入作为输入,使每个输入单元融合了来自文档图像语义区域的文本词元与视觉特征。UDoc的一个关键特性在于,其通过引入三种自监督损失函数,学习通用的表示能力,从而促使模型能够建模句子语义、捕捉语义相似性并实现跨模态对齐。大量实证分析表明,该预训练过程能够学习到更优的联合表示,显著提升下游任务的性能表现。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-layout-analysis-on-publaynet-val | UDoc | Figure: 0.964 List: 0.937 Overall: 0.939 Table: 0.973 Text: 0.939 Title: 0.885 |