7 个月前

卷积神经网络

计算机视觉

Hossein Nezamabadi-pour Ali Afkari Fahandari Fatemeh sadat Eslami Elham Shabaninia

摘要

本文介绍了一种用于波斯语（Farsi）文档图像的新大型数据集，命名为SUT，旨在解决在文档图像分析（Document Image Analysis, DIA）任务中获取多样化且大规模真实标签数据所面临的挑战。这些任务包括文档图像分类、文本检测与识别以及信息检索等。该数据集包含62,453张图像，共划分为21个不同类别，其中包含多种身份类文档，其个人信息为合成生成，并叠加于不同背景之上。数据集还配套提供了包含图像标注信息的标签文件。真实标签数据以CSV格式组织，包含图像文件的完整路径及其所嵌入信息的详细描述。为验证SUT数据集在DIA任务中的有效性，研究将其应用于文档分类任务（采用卷积神经网络，取得86%的准确率）以及光学字符识别（OCR）任务（分别使用Tesseract和EasyOCR引擎，字符错误率CER达到0.083和0.072）。SUT数据集为致力于开发与评估波斯语文档图像分析中监督学习模型的研究人员提供了一个具有重要价值的资源。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

计算机视觉

Hossein Nezamabadi-pour Ali Afkari Fahandari Fatemeh sadat Eslami Elham Shabaninia

摘要

本文介绍了一种用于波斯语（Farsi）文档图像的新大型数据集，命名为SUT，旨在解决在文档图像分析（Document Image Analysis, DIA）任务中获取多样化且大规模真实标签数据所面临的挑战。这些任务包括文档图像分类、文本检测与识别以及信息检索等。该数据集包含62,453张图像，共划分为21个不同类别，其中包含多种身份类文档，其个人信息为合成生成，并叠加于不同背景之上。数据集还配套提供了包含图像标注信息的标签文件。真实标签数据以CSV格式组织，包含图像文件的完整路径及其所嵌入信息的详细描述。为验证SUT数据集在DIA任务中的有效性，研究将其应用于文档分类任务（采用卷积神经网络，取得86%的准确率）以及光学字符识别（OCR）任务（分别使用Tesseract和EasyOCR引擎，字符错误率CER达到0.083和0.072）。SUT数据集为致力于开发与评估波斯语文档图像分析中监督学习模型的研究人员提供了一个具有重要价值的资源。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供