4 个月前

DiT:文档图像Transformer的自监督预训练

DiT:文档图像Transformer的自监督预训练

摘要

图像Transformer在自然图像理解方面最近取得了显著进展,无论是通过监督预训练技术(如ViT、DeiT等)还是自监督预训练技术(如BEiT、MAE等)。本文提出了一种新的自监督预训练模型\textbf{DiT},即\textbf{D}ocument \textbf{I}mage \textbf{T}ransformer模型,该模型利用大规模未标注文本图像进行文档AI任务的预训练。由于缺乏人工标注的文档图像,因此这种自监督预训练对于文档AI任务至关重要,因为从未有过相应的监督方法。我们在多种基于视觉的文档AI任务中使用DiT作为骨干网络,包括文档图像分类、文档布局分析、表格检测以及OCR的文字检测。实验结果表明,自监督预训练的DiT模型在这些下游任务上达到了新的最先进水平,例如:文档图像分类(从91.11%提升至92.69%)、文档布局分析(从91.0%提升至94.9%)、表格检测(从94.23%提升至96.55%)和OCR文字检测(从93.07%提升至94.29%)。代码和预训练模型已公开发布于\url{https://aka.ms/msdit}。

基准测试

基准方法指标
document-image-classification-on-rvl-cdipDiT-B
Accuracy: 92.11%
Parameters: 87M
document-image-classification-on-rvl-cdipDiT-L
Accuracy: 92.69%
Parameters: 304M
document-layout-analysis-on-publaynet-valDiT-L
Figure: 0.972
List: 0.960
Overall: 0.949
Table: 0.978
Text: 0.944
Title: 0.893
table-detection-on-ctdarDiT-B (Cascade)
Weighted Average F1-score: 96.14
table-detection-on-ctdarDiT-L (Cascade)
Weighted Average F1-score: 96.55

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DiT:文档图像Transformer的自监督预训练 | 论文 | HyperAI超神经