
摘要
图像Transformer在自然图像理解方面最近取得了显著进展,无论是通过监督预训练技术(如ViT、DeiT等)还是自监督预训练技术(如BEiT、MAE等)。本文提出了一种新的自监督预训练模型\textbf{DiT},即\textbf{D}ocument \textbf{I}mage \textbf{T}ransformer模型,该模型利用大规模未标注文本图像进行文档AI任务的预训练。由于缺乏人工标注的文档图像,因此这种自监督预训练对于文档AI任务至关重要,因为从未有过相应的监督方法。我们在多种基于视觉的文档AI任务中使用DiT作为骨干网络,包括文档图像分类、文档布局分析、表格检测以及OCR的文字检测。实验结果表明,自监督预训练的DiT模型在这些下游任务上达到了新的最先进水平,例如:文档图像分类(从91.11%提升至92.69%)、文档布局分析(从91.0%提升至94.9%)、表格检测(从94.23%提升至96.55%)和OCR文字检测(从93.07%提升至94.29%)。代码和预训练模型已公开发布于\url{https://aka.ms/msdit}。
代码仓库
huggingface/transformers
pytorch
GitHub 中提及
thibaultvt/Diard
pytorch
microsoft/unilm/tree/master/dit
官方
pytorch
MindCode-4/code-3/tree/main/deit
mindspore
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| document-image-classification-on-rvl-cdip | DiT-B | Accuracy: 92.11% Parameters: 87M | 
| document-image-classification-on-rvl-cdip | DiT-L | Accuracy: 92.69% Parameters: 304M | 
| document-layout-analysis-on-publaynet-val | DiT-L | Figure: 0.972 List: 0.960 Overall: 0.949 Table: 0.978 Text: 0.944 Title: 0.893 | 
| table-detection-on-ctdar | DiT-B (Cascade) | Weighted Average F1-score: 96.14 | 
| table-detection-on-ctdar | DiT-L (Cascade) | Weighted Average F1-score: 96.55 |