
摘要
我们提出了一种新颖的架构,用于标记字符序列,在Tashkeela阿拉伯语短音符标注基准测试中取得了最先进的结果。该架构的核心是一个两层递归层次结构,分别在单词和字符级别上运行——这使得其训练和推理速度比类似的传统模型更快。一个跨层级注意力模块进一步连接了这两个层次,并为网络的可解释性打开了大门。任务模块是一个softmax分类器,用于枚举有效的短音符组合。该架构还可以通过一个递归解码器进行扩展,该解码器可以选择性地接受部分标注文本的先验信息,从而提高性能。我们还采用了诸如句子丢弃和多数投票等额外技巧,以进一步提升最终结果。我们的最佳模型实现了5.34%的词错误率(WER),相对于之前的最先进水平,相对错误率降低了30.56%。
代码仓库
BKHMSI/deep-diacritization
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| arabic-text-diacritization-on-catt-dataset | Deep Diacritization (D2) | DER(%): 13.310 WER (%): 49.417 |
| arabic-text-diacritization-on-catt-dataset | Deep Diacritization (D3) | DER(%): 58.313 WER (%): 98.710 |
| arabic-text-diacritization-on-tashkeela-1 | D3 (D2 + decoder) | Diacritic Error Rate: 0.0183 Word Error Rate (WER): 0.0534 |
| arabic-text-diacritization-on-tashkeela-1 | D2 | Diacritic Error Rate: 0.0185 Word Error Rate (WER): 0.0553 |