4 个月前

CATT:基于字符的阿拉伯语塔什克尔变换器

CATT:基于字符的阿拉伯语塔什克尔变换器

摘要

塔什基勒(Tashkeel),或阿拉伯文文本音符标注(Arabic Text Diacritization, ATD),通过消除歧义并减少因缺少音符而导致的误读,显著提升了阿拉伯文文本的理解能力。它在改进阿拉伯文文本处理方面发挥着关键作用,特别是在诸如从文本到语音转换和机器翻译等应用中。本文介绍了一种新的训练ATD模型的方法。首先,我们对两个基于预训练字符级BERT初始化的Transformer模型进行了微调,一个是仅编码器模型,另一个是编码器-解码器模型。然后,我们采用了Noisy-Student方法来提升最佳模型的性能。我们使用两个手动标注的基准数据集——WikiNews和我们的CATT数据集——对我们的模型与11个商业和开源模型进行了评估。研究结果表明,我们的顶级模型在WikiNews和CATT数据集上的相对音符错误率(Diacritic Error Rates, DERs)分别为30.83%和35.21%,超过了所有被评估的模型,在ATD领域达到了最先进的水平。此外,我们在CATT数据集上还展示了我们的模型相对于GPT-4-turbo的相对DER为9.36%的优势。我们已将CATT模型和基准数据集开源给研究社区\footnote{https://github.com/abjadai/catt}。

代码仓库

abjadai/catt
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
arabic-text-diacritization-on-catt-datasetCBHG
DER(%): 10.808
WER (%): 42.680
arabic-text-diacritization-on-catt-datasetMultilevel Diacritizer
DER(%): 16.482
WER (%): 60.844
arabic-text-diacritization-on-catt-datasetCATT ED
DER(%): 8.624
WER (%): 34.191
arabic-text-diacritization-on-catt-datasetSakhr
DER(%): 13.841
WER (%): 56.661
arabic-text-diacritization-on-catt-datasetCommand R+
DER(%): 13.169
WER (%): 48.518
arabic-text-diacritization-on-catt-datasetShakkala
DER(%): 13.494
WER (%): 50.387
arabic-text-diacritization-on-catt-datasetGPT-4
DER(%): 9.515
WER (%): 38.311
arabic-text-diacritization-on-catt-datasetAlkhalil
DER(%): 14.232
WER (%): 53.413
arabic-text-diacritization-on-catt-datasetCATT EO
DER(%): 8.762
WER (%): 35.597

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CATT:基于字符的阿拉伯语塔什克尔变换器 | 论文 | HyperAI超神经