
摘要
深度学习方法在历史文档图像分析任务中展现出优异的性能。然而,尽管现有的库和框架已较为成熟,编写实验或一系列实验并执行仍可能耗费大量时间。为此,我们提出了一种基于PyTorch Lightning的开源深度学习框架——DIVA-DAF,专为历史文档分析任务设计。该框架内置了多种预实现的任务,如图像分割与分类,可直接使用或灵活定制。同时,用户可轻松构建自定义任务,并得益于其强大的数据加载模块,即使处理大规模数据集或多种形式的标注数据(ground truth),也能高效完成。实际应用表明,该框架显著缩短了文档分析任务的编程时间,尤其在预训练、架构调整等不同场景下优势明显。此外,凭借其高效的数据模块,框架还能大幅减少模型训练时间。
代码仓库
DIVA-DIA/DIVA-DAF
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-diva-hisdb | U-Net | Mean IoU (class): 97.26 |