3 个月前

支持零样本分类的孟加拉语手写音素识别流水线

支持零样本分类的孟加拉语手写音素识别流水线

摘要

本研究聚焦于零样本学习(Zero-Shot Learning, ZSL),提出基于CycleGAN的图像生成方法与精确的标签映射机制,以建立标签与字形(graphemes)之间的强关联。研究旨在通过先进的字体图像分类技术以及基于CycleGAN的生成器,提升模型在识别未见类别时的准确性。所生成的抽象字符结构表征在识别性能上实现显著提升,能够有效涵盖已见与未见类别。本研究针对孟加拉语(Bangla)场景下的光学字符识别(OCR)难题展开深入探讨。孟加拉文字系统以其高度复杂性著称,共包含49个字符,其中包括11个元音、38个辅音以及18个变音符号。这些字符在复杂组合下可生成近13,000种独特的字形变体,远超英语语言中的字形单位数量。本研究提出了一种面向孟加拉语OCR的新型零样本学习策略,通过融合生成模型与精细化的标签标注技术,显著推动孟加拉语字形分类的发展。研究目标在于为南亚地区教育数字资源的普及与建设产生实质性影响。

基准测试

基准方法指标
bangla-text-detection-on-bengali-aiCycleGAN
hierarchical macro-averaged recall: 0.9762

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
支持零样本分类的孟加拉语手写音素识别流水线 | 论文 | HyperAI超神经