
摘要
塔什基勒(Tashkeel),或阿拉伯文文本音符标注(Arabic Text Diacritization, ATD),通过消除歧义并减少因缺少音符而导致的误读,显著提升了阿拉伯文文本的理解能力。它在改进阿拉伯文文本处理方面发挥着关键作用,特别是在诸如从文本到语音转换和机器翻译等应用中。本文介绍了一种新的训练ATD模型的方法。首先,我们对两个基于预训练字符级BERT初始化的Transformer模型进行了微调,一个是仅编码器模型,另一个是编码器-解码器模型。然后,我们采用了Noisy-Student方法来提升最佳模型的性能。我们使用两个手动标注的基准数据集——WikiNews和我们的CATT数据集——对我们的模型与11个商业和开源模型进行了评估。研究结果表明,我们的顶级模型在WikiNews和CATT数据集上的相对音符错误率(Diacritic Error Rates, DERs)分别为30.83%和35.21%,超过了所有被评估的模型,在ATD领域达到了最先进的水平。此外,我们在CATT数据集上还展示了我们的模型相对于GPT-4-turbo的相对DER为9.36%的优势。我们已将CATT模型和基准数据集开源给研究社区\footnote{https://github.com/abjadai/catt}。
代码仓库
abjadai/catt
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| arabic-text-diacritization-on-catt-dataset | CBHG | DER(%): 10.808 WER (%): 42.680 |
| arabic-text-diacritization-on-catt-dataset | Multilevel Diacritizer | DER(%): 16.482 WER (%): 60.844 |
| arabic-text-diacritization-on-catt-dataset | CATT ED | DER(%): 8.624 WER (%): 34.191 |
| arabic-text-diacritization-on-catt-dataset | Sakhr | DER(%): 13.841 WER (%): 56.661 |
| arabic-text-diacritization-on-catt-dataset | Command R+ | DER(%): 13.169 WER (%): 48.518 |
| arabic-text-diacritization-on-catt-dataset | Shakkala | DER(%): 13.494 WER (%): 50.387 |
| arabic-text-diacritization-on-catt-dataset | GPT-4 | DER(%): 9.515 WER (%): 38.311 |
| arabic-text-diacritization-on-catt-dataset | Alkhalil | DER(%): 14.232 WER (%): 53.413 |
| arabic-text-diacritization-on-catt-dataset | CATT EO | DER(%): 8.762 WER (%): 35.597 |