6 个月前

计算机视觉

Tashin Ahmed Md Habibur Sifat Linsheng Guo

摘要

本研究聚焦于零样本学习（Zero-Shot Learning, ZSL），提出基于CycleGAN的图像生成方法与精确的标签映射机制，以建立标签与字形（graphemes）之间的强关联。研究旨在通过先进的字体图像分类技术以及基于CycleGAN的生成器，提升模型在识别未见类别时的准确性。所生成的抽象字符结构表征在识别性能上实现显著提升，能够有效涵盖已见与未见类别。本研究针对孟加拉语（Bangla）场景下的光学字符识别（OCR）难题展开深入探讨。孟加拉文字系统以其高度复杂性著称，共包含49个字符，其中包括11个元音、38个辅音以及18个变音符号。这些字符在复杂组合下可生成近13,000种独特的字形变体，远超英语语言中的字形单位数量。本研究提出了一种面向孟加拉语OCR的新型零样本学习策略，通过融合生成模型与精细化的标签标注技术，显著推动孟加拉语字形分类的发展。研究目标在于为南亚地区教育数字资源的普及与建设产生实质性影响。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Tashin Ahmed Md Habibur Sifat Linsheng Guo

摘要

本研究聚焦于零样本学习（Zero-Shot Learning, ZSL），提出基于CycleGAN的图像生成方法与精确的标签映射机制，以建立标签与字形（graphemes）之间的强关联。研究旨在通过先进的字体图像分类技术以及基于CycleGAN的生成器，提升模型在识别未见类别时的准确性。所生成的抽象字符结构表征在识别性能上实现显著提升，能够有效涵盖已见与未见类别。本研究针对孟加拉语（Bangla）场景下的光学字符识别（OCR）难题展开深入探讨。孟加拉文字系统以其高度复杂性著称，共包含49个字符，其中包括11个元音、38个辅音以及18个变音符号。这些字符在复杂组合下可生成近13,000种独特的字形变体，远超英语语言中的字形单位数量。本研究提出了一种面向孟加拉语OCR的新型零样本学习策略，通过融合生成模型与精细化的标签标注技术，显著推动孟加拉语字形分类的发展。研究目标在于为南亚地区教育数字资源的普及与建设产生实质性影响。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供