3 个月前

SUT:一种用于波斯语文档图像分析的新型多用途合成数据集

SUT:一种用于波斯语文档图像分析的新型多用途合成数据集

摘要

本文介绍了一种用于波斯语(Farsi)文档图像的新大型数据集,命名为SUT,旨在解决在文档图像分析(Document Image Analysis, DIA)任务中获取多样化且大规模真实标签数据所面临的挑战。这些任务包括文档图像分类、文本检测与识别以及信息检索等。该数据集包含62,453张图像,共划分为21个不同类别,其中包含多种身份类文档,其个人信息为合成生成,并叠加于不同背景之上。数据集还配套提供了包含图像标注信息的标签文件。真实标签数据以CSV格式组织,包含图像文件的完整路径及其所嵌入信息的详细描述。为验证SUT数据集在DIA任务中的有效性,研究将其应用于文档分类任务(采用卷积神经网络,取得86%的准确率)以及光学字符识别(OCR)任务(分别使用Tesseract和EasyOCR引擎,字符错误率CER达到0.083和0.072)。SUT数据集为致力于开发与评估波斯语文档图像分析中监督学习模型的研究人员提供了一个具有重要价值的资源。

基准测试

基准方法指标
document-image-classification-on-sutCNN
Accuracy: 86%
optical-character-recognition-ocr-on-sutEasyOCR
Character Error Rate (CER): 0.072
optical-character-recognition-ocr-on-sutTesseract
Character Error Rate (CER): 0.083

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SUT:一种用于波斯语文档图像分析的新型多用途合成数据集 | 论文 | HyperAI超神经